Данные - топливо для искусственного интеллекта

Отличное качество данных так же важно для успеха вашего решения AI, как и качество программного обеспечения для ваших критически важных программ. Навыки работы с данными - это обязательное условие в вашем путешествии по ИИ, и они необходимы для разработки этичных решений ИИ.

В сегодняшнем обсуждении искусственного интеллекта много говорится и пишется о нейронных сетях и платформах искусственного интеллекта, которые обеспечивают возможности нейронных сетей. Однако мы считаем, что необходимо гораздо больше обсудить данные, которые питают искусственный интеллект. Это данные, которые тренируют искусственный интеллект и определяют его назначение. ИИ воздействует на данные, и качество данных определяет качество искусственного интеллекта. Необходимо изучить и улучшить то, как правильно работать с данными, и необходимо больше обсуждений и исследований, чтобы найти способы определения, сбора, реализации и управления потоками данных для получения положительных и надежных результатов в области искусственного интеллекта. Только в том случае, если вы используете правильные данные и только при наличии достаточного количества данных, итоговые решения искусственного интеллекта могут создать ценные решения, которые окажут положительное влияние на ваших пользователей и на ваш бизнес. Любая предвзятость в обучающих данных будет влиять на решение вашей системы искусственного интеллекта, делая решения неправильными, неточными и непоследовательными. Неверные данные могут легко привести к этически неправильному и опасному ИИ. В этой статье мы расскажем, как работать с данными в AI.

Первой остановкой в любом проекте AI должно быть определение цели проекта.

Зачем нужен проект?
Чего вы пытаетесь достичь?
Какие решения вы хотите, чтобы ИИ принимал?
Почему ИИ - правильный выбор для решения этой проблемы и какие есть альтернативы?

Ответы на эти вопросы определят влияние использования ИИ на ваш проект, они позволят вам измерить окупаемость ваших инвестиций (ROI) и обеспечат решение реальной серьезной проблемы. Это необходимо для обоснования необходимых ресурсов и усилий. Формулировка цели также определит данные и качество данных, которые необходимы для обучения и эксплуатации вашего ИИ. В этой статье мы сосредоточимся на использовании ИИ для принятия заранее определенного решения, поэтому принятое решение определяет необходимые данные. Однако есть и другие типы проектов ИИ, которые не рассматриваются в этой статье, где вы используете ИИ для понимания ваших данных, выявления закономерностей в существующих данных или извлечения знаний из ваших данных.

При определении цели вашего проекта важным первым шагом является определение необходимых данных и просмотр имеющихся данных.

Сколько данных доступно и какое качество?
Какие данные отсутствуют и как их можно сгенерировать или добавить в ваш проект?
Как обеспечить непредвзятость данных?
Есть ли в вашем проекте этические соображения?

Обязательно правильно пометьте свой проект и свои данные. ИИ, обученный распознавать кошек по фотографиям, не сможет распознать лошадей. Если это неправильно обозначено, ваш ИИ может быть неправильно использован или неправильно истолкован, что приведет к неверным результатам. Это очень важный фактор для того, чтобы ваш ИИ вел себя наиболее выгодно и этично.

Пример показывает, как работать с данными

Давайте рассмотрим простой пример распознавания речи, чтобы описать некоторые основные концепции и изложить подход к работе с данными в AI. Здесь мы разрабатываем приложение-подкаст для пожилых людей. Наша целевая аудитория - это люди в возрасте, у которых много времени, их глаза не очень хороши для чтения и они не очень разбираются в технологиях. Мы предполагаем, что люди смогут управлять приложением с помощью голоса через смартфон или умную колонку. Используя определенный набор команд, мы хотим, чтобы приложение управлялось голосом людей. Мы хотим часами развлекаться, не возясь с кнопками и элементами управления. Понимание голоса - хорошая область для использования ИИ, поскольку данные могут быть очень неструктурированными, в зависимости от используемых слов, акцентов, четкости голоса и многих других факторов. Цель вашего ИИ - понять, что говорят пожилые люди, интерпретировать значение и преобразовать это в команды, которые запускают функцию в приложении.

Первый шаг - определить, какие данные необходимы. Мы придумываем несколько способов произнести каждую команду, поскольку люди могут по-разному говорить вещи для достижения одной и той же цели. Чем лучше и тщательнее мы его подготовим, тем лучше будут наши пользователи. Когда приложение используется, способ записи пользовательского ввода (и, таким образом, создания данных) будет осуществляться через микрофон выбранного нами аппаратного устройства (датчика).

Теперь нам нужно найти способ понять речевые данные. Программирование традиционным способом слишком сложно и подвержено ошибкам, поэтому мы развернем ИИ, чтобы понять, что говорит пользователь. Датчик микрофона будет собирать голосовые данные от пользователей и передавать наш поток данных в наш ИИ. AI будет использовать голосовые данные, чтобы решить, что пользователь хочет делать. Решение будет заключаться в выполнении команды в нашем приложении на основе ввода голосовых данных. Для этого нам нужно научить ваш ИИ понимать голосовые данные, особенно пожилых людей и их особую манеру речи.

Чтобы обучить ИИ, нам нужно получить обучающие данные и пометить их (человек, говорящий «старт», переводится как «старт»). Сейчас нам нужно, чтобы много людей говорили, начинай по-своему, с акцентом, тоном голоса. Чем лучше наши данные обучения и чем больше тренируется ИИ, тем лучше будет работать наш ИИ. Как мы можем получить данные обучения для нашего конкретного случая использования? Есть несколько способов получить размеченные данные обучения, и наша первая задача - подумать о наиболее эффективном способе их получения для нашего проекта. Давайте посмотрим на некоторые возможности.

Мы можем сами записать образцы голоса. Для этого мы можем навещать пожилых людей и просить их произносить определенные нами команды в различных вариациях. Для каждой записи мы маркируем команду, сопоставляя голосовые данные с меткой. Это может занять довольно много времени, а результаты будут ограничены типом людей, которых мы записываем.
Мы можем искать на YouTube видео, которые содержат слова пожилого возраста, искать соответствующие разделы, вырезать их и маркировать их соответствующим образом.
Можно поискать аудиокниги, которые читают пожилые люди. Здесь мы можем получить доступ как к письменным, так и к аудиофайлам. Это позволит нам написать сценарий для поиска нужного раздела, а затем мы сможем идентифицировать и пометить эти разделы соответствующим образом.
Мы также можем искать брокеров данных, которые могут предоставить нам определенные помеченные данные.
Мы можем попросить поставщиков услуг передачи данных создать для нас эти данные.
Многие страны с низкими затратами на рабочую силу теперь создают сервисы данных, которые можно использовать для классификации и искусственного интеллекта.

После того, как вы собрали эти данные, пора подготовить их к тому, чтобы ИИ учился на них. Прежде чем мы это сделаем, мы должны убедиться, что наших данных достаточно и они имеют надлежащее качество.

Есть ли у нас разные способы говорить что-то?
У нас разные тона и пол голосов?
Есть ли у нас варианты акцентов?
Отсутствуют ли в данных фоновые шумы?

Все это повлияет на качество нашего ИИ. Мы тщательно анализируем наши данные, затем делаем их согласованными и преобразуем их в правильный формат. Мы сокращаем и очищаем данные (убедитесь, что у нас есть только соответствующие разделы, что фоновые шумы отфильтрованы), разбиваем данные (решая, хотим ли мы слова или предложения). Мы изменяем масштаб данных (чтобы обеспечить одинаковый объем). При подготовке данных для обучения каждый из этих шагов рассматривается и выполняется с большой осторожностью. С этими данными мы можем затем обучить наш ИИ.

После того, как наш ИИ будет хорошо обучен, некоторые из этих функций управления данными могут быть автоматизированы (например, масштабирование), поскольку мы загружаем данные в ваш ИИ в режиме реального времени. Но для тренировочных данных мы рекомендуем делать это с большой осторожностью, шаг за шагом. Во многих проектах первоначальное обучение ИИ - это довольно ручной процесс.

Подготовка данных - это большая работа, и вы должны быть очень осторожны, чтобы получить ее правильно, поскольку ваш ИИ будет учиться только на тех обучающих данных, которые вы предоставляете. Низкое качество данных будет означать низкую производительность ИИ. Если ваши данные предвзяты, ваш ИИ будет предвзятым и будет принимать неправильные решения. Помимо качества, вы также должны учитывать этику. Если вы учитываете только мужские голоса в своих тренировочных данных, ваш ИИ может ошибаться в понимании женщин. Если вы учитываете только некоторые акценты, другие акценты могут быть неправильно поняты. Это может не быть большой проблемой для нашего приложения для подкастов, но это определенно большая проблема, если кто-то принимает жизненно важные решения на основе искусственного интеллекта, например, в аварийном приложении.

Обучение нейронной сети

После того, как данные для обучения подготовлены, пора обучать нейронную сеть. Для этого мы настраиваем нейронную сеть по нашему выбору. Растет число вариантов платформ ИИ от различных участников рынка, таких как IBM, Amazon, Google, Microsoft. Многие уже подготовили сервисы для речевых данных, некоторые сервисы уже в определенной степени предварительно обучены. Подача маркированных данных обучения проста и не требует много времени. Как только это будет сделано, мы готовы проверить качество нашего ИИ. Мы отправляем немаркированные данные и наблюдаем за тем, как наш ИИ принимает решения. Это всегда будет давать нам уровень уверенности, и на основе этого мы можем измерить правильность нашего обученного ИИ. Сравнение этого с реальными известными данными даст нам представление о том, правильно ли ведет себя наш ИИ или нам нужно больше и более качественных данных для его обучения. В нашем простом примере это процесс, требующий большого человеческого вмешательства, внимания и усилий. Во многих проектах ИИ мы убедились, что время и усилия по обучению ИИ никогда не следует недооценивать.

ИИ в действии и со временем совершенствуется

После того, как наше первоначальное обучение ИИ завершено, мы можем использовать ИИ в нашем приложении, и пользователи могут начать с ним взаимодействовать. Качество ИИ будет зависеть от количества и качества наших обучающих данных. Часто имеет смысл настроить приложение таким образом, чтобы ИИ со временем улучшался. Обратите внимание, что ИИ учится только с обратной связью, поэтому мы должны встроить этот цикл обратной связи в наше приложение, чтобы ИИ продолжал учиться на данных в реальном времени. Это еще один важный шаг, который не всегда легко выполнить, поэтому давайте рассмотрим некоторые варианты выполнения этого в нашем примере. Один из способов получить обратную связь о решениях ИИ - попросить пользователя принять участие. В нашем приложении для подкастов мы могли бы создать кнопку обратной связи, которую пользователи нажимают, если приложение их неправильно понимает. Эта информация может быть направлена группе данных, которая затем просматривает данные и передает их в ИИ для обучения (возможно, создавая дополнительные вариации данных для оптимального обучения). Если пользователи действительно заинтересованы, они также могут провести обучение и сами обозначить свои намерения. Это часто делается с вовлеченными ранними пользователями (ведущими пользователями), у которых есть высокая мотивация улучшать приложение или услугу. Делать это с обычными пользователями не рекомендуется, поскольку они устают, если их постоянно просят улучшить основную функцию приложения, и просто ожидают, что приложение будет работать. В качестве альтернативы ваша группа данных может прослушивать речевые данные пользователей, чтобы увидеть и оценить, где ИИ нужно улучшить, пометить данные и использовать их для оптимизации ИИ на основе реальных данных об использовании. Эту задачу также можно передать на аутсорсинг растущему сектору компаний, предоставляющих услуги передачи данных.

Этот небольшой пример иллюстрирует важность данных для ИИ. Хотя часто есть разные варианты получения данных, очень важно получить правильные данные, подготовить их для ИИ и убедиться, что мы понимаем и минимизируем предвзятость в данных. При подготовке данных следует проявлять особую осторожность, и часто приходится прилагать большие усилия, чтобы получить их правильно. Помните об этических последствиях, если данные являются необъективными. Когда ИИ заработает, важно определить способы его улучшения и обучения с течением времени. Все это требует от ИИ сильной цели. В противном случае усилия могут перевесить выгоды, которые могут быть достигнуты, и проект потерпит неудачу.

Как подготовить данные

Подготовка данных необходима для обучения и принятия решений в области ИИ в режиме реального времени, это должно быть вашей самой важной задачей в любом проекте ИИ. Эта задача специфична для варианта использования и компании, создающей вариант использования. Это должно быть сделано вами и вашей командой и не связано с платформами AI, которые доступны сегодня. Это будет отличать ваш ИИ от других независимо от того, какую платформу ИИ вы используете. Сегодня существует неправильное представление о том, что нейронная сеть является ключом к успеху вашего ИИ, и мы считаем, что качество обучающих данных является ключевым фактором. Вы можете предположить, что нейронная сеть - это просто черный ящик, и со временем она будет улучшаться. Ключ к успеху искусственного интеллекта - это качество и количество ваших данных. Это ваша самая большая ответственность и самая большая возможность. Стоит потратить много времени и усилий на подготовку данных. Хорошие и непредвзятые данные приведут к созданию хорошего и непредвзятого ИИ. Стоит повторить это и для себя, и для своей команды. Все дело в данных, данных, данных…

Мы рекомендуем использовать следующий 7-шаговый подход, чтобы ответить на самые важные вопросы при подготовке ваших данных:

1. Сформулируйте проблему

Какую проблему ты пытаешься решить?
Почему ее нельзя решить традиционными средствами?
Какие решения я хочу, чтобы ИИ принимал?
Какая польза от решения этого вопроса?
Сколько усилий я могу приложить для достижения положительной рентабельности инвестиций?

2. Определите необходимые данные.

Какие данные необходимы для надежного принятия этих решений?
Какие еще данные и факторы влияют на эти данные?
Какие могут быть важные корреляции в данных и с внешними данными?
Где могут существовать или создаваться предубеждения в данных?

3. Оцените свои данные и определите минимальную точность прогнозов.

Какие данные у вас есть?
Доступны ли исторические данные и каково качество этих данных?
Какова предвзятость имеющихся у вас данных?
Какова минимальная точность прогнозов, при которой решение, принятое ИИ, ценно?

4. Найдите недостающие данные.

Можете ли вы создать недостающие данные (например, путем изменения процессов или поведения, добавления датчиков)?
Можно ли получить данные где-нибудь еще?
Можете ли вы приобрести недостающие данные?
Можете ли вы попросить кого-нибудь создать для вас недостающие данные?
Какие данные вы сможете получить в будущем?

5. Отформатируйте данные и сделайте их согласованными.

Как получить доступ к данным?
Как создать согласованный формат, в котором ИИ будет читать ваши данные (формат ввода должен быть согласованным для всех наборов данных)?
Как вы создаете поток данных из всех данных для подачи в ваш ИИ?

6. Сократите, разложите и очистите данные.

Какие данные или атрибуты будут наиболее важными для принятия решения?
Какие данные могут быть помехами или отменять важные данные и должны быть удалены?
Какие атрибуты точно не нужны для принятия решения (убрать)?
В каких записях отсутствуют данные, они могут быть неправильными или неполными?
Как можно агрегировать данные или добавлять дополнительные данные?

7. Измените масштаб данных.

Ваши данные в разных масштабах?
Могут ли разные масштабы повлиять на решение или качество вашего ИИ?
Как вы можете изменить масштаб или нормализовать данные (чтобы скорректировать масштаб оптимизации в свой ИИ)?

Как подчеркивалось выше, это ваш шанс выделиться. Ваши данные - это то, что отличает вас от других, поэтому мы рекомендуем проявлять большую осторожность при прохождении этого процесса. Конечно, это требует больших усилий, но от этого зависит качество вашего ИИ, ваших данных, управления данными и вашего успеха.

Ваша ответственность

Данные - ваша самая большая ответственность в любом проекте ИИ, поскольку они определяют решения, которые принимает ИИ. Поскольку данные используются для обучения ИИ, они будут основой для каждого решения, которое принимает ИИ. Следовательно, получение правильных данных является самой важной обязанностью. В хорошо управляемом проекте ИИ все заинтересованные стороны должны знать об этом, и руководитель проекта должен сделать это своим приоритетом. Хотя это не единственная ответственность отдельных ролей, таких как разработчик нейронной сети, специалист по данным, инженер по данным или руководитель проекта, все должны осознавать важность данных для успеха и воздействия проекта. Мы рекомендуем назначить кого-то, кто будет руководить данными, и эта роль должна предусматривать долгосрочную перспективу проекта и данных. Вы должны учитывать правовые и этические аспекты вашего ИИ. Будьте очень внимательны, чтобы проверить, отследить и задокументировать происхождение и идентичность используемых данных. Когда ИИ принимает решение, его можно отследить только по данным, которые использовались для его обучения. Любые юридические, этические усилия или даже усилия по оптимизации могут потребовать понимания происхождения и идентичности данных.

Создавая свою организацию для будущего, вам нужно будет сделать данные ключевым элементом своей стратегии. Без четкого представления о данных и о том, как их можно использовать, вашей организации может быть сложно следовать в реализации вашего видения ИИ. Вам также придется инвестировать в компетентность в области обработки данных и разрушить разрозненность ИТ и бизнеса, чтобы достичь совместного видения и усилий. Данные - это то место, где все части вашей организации должны будут работать вместе, и для их выполнения потребуется большая компетенция.

Большие данные, аналитика и искусственный интеллект

Рост вычислительной мощности, хранилища, связности и развертывания датчиков различных типов вызвал взрывной рост доступности данных, с которым часто невозможно справиться традиционными средствами и методами. Так называемые большие данные и аналитика больших данных начали решать эту проблему, работая с большим количеством данных из различных источников, добавляя дополнительные внешние источники данных, обмениваясь данными, запрашивая данные, визуализируя и сохраняя данные. Многие аналитические методы начинают ориентироваться на большие данные, и предпринимаются попытки улучшить прогнозы, полученные на основе больших данных, часто с использованием ИИ. Поскольку данные являются топливом для искусственного интеллекта, большие данные - это важное событие и возможность для наблюдения и использования. Однако тенденция к добавлению слишком большого количества данных в ИИ может ухудшить качество решения ИИ. Поэтому важно использовать преимущества больших данных и аналитики для подготовки данных для ИИ, а также для обеспечения и измерения качества, но не увлекайтесь добавлением данных или сложности в свои проекты ИИ. Большинство проектов искусственного интеллекта, которые в основном представляют собой узкие проекты искусственного интеллекта, не требуют больших данных для обеспечения своей ценности. Им просто нужно хорошее качество данных и большое количество записей.

Инструменты для подготовки данных

С доступностью данных и проектов данных и развитием ИИ появляется все больше инструментов, которые помогут вам подготовить данные для ИИ. Лучше всего поискать в Интернете текущие инструменты, варианты их использования и рекомендации по их использованию. В источниках есть несколько ссылок. Некоторые инструменты тесно интегрированы с платформами ИИ, поэтому ваш первый выбор - поискать инструменты, которые платформы предоставляют, которые вы используете для ИИ. Примерами являются DataPrep от Google и Data Refinery от IBM. Эти инструменты предлагают консоли управления для управления вашими данными. Они позволяют добавлять различные источники данных, рассчитывать и визуализировать состояние ваших данных, позволяют добавлять данные в ваши записи, а также многие другие функции. Все инструменты требуют определенных специальных знаний, хотя для самостоятельного обучения доступно множество учебных материалов. Также ищите растущее число консультантов, которые могут помочь в подготовке ваших данных.

Что может пойти не так?

К сожалению, в вашем проекте ИИ многое может пойти не так. Мы видим самый большой провал в отсутствии данных или возможности получить нужные данные для ИИ. Компании часто попадают в ловушку, полагая, что у них есть все данные, но опыт показывает, что данные часто недоступны, недоступны, не подлежат хранению, являются неполными или предвзятыми. Чтобы преодолеть этот недостаток и получить нужные данные для вашего ИИ, требуется четкое видение и поддержка руководства.

После запуска проекта многое может пойти не так. Отсутствие качества или правильности решений в основном может быть связано с отсутствием усилий по отбору и подготовке данных и обучению ИИ. Использование неправильных источников, непонимание зависимостей данных, отсутствие очистки данных, отсутствие достаточного количества данных для обучения, предвзятые данные - это лишь несколько областей, которые сильно влияют на качество решений ИИ.

Поэтому сосредоточьтесь на одном: получите правильные данные.

Эта статья написана в рамках серии AI & U ™ (Искусственный интеллект и ВЫ) Шарадом Ганди и Кристианом Эльом. Следите за будущими статьями о том, как понять, изучить, развернуть и использовать ИИ для вас и вашей организации. Наша книга AI&U была опубликована в 2017 году. Мы также предлагаем семинары для клиентов, чтобы помочь компаниям начать преобразование своего бизнеса с помощью ИИ.

Свяжитесь с нами на www.ai-u.org

Источники:

Подготовка набора данных для машинного обучения: 8 основных методов, которые улучшают ваши данные, https://www.altexsoft.com/blog/datascience/preparing-your-dataset-for-machine-learning-8-basic-techniques-that -make-your-data-better /
IBM Watson Services, https://console.bluemix.net/developer/watson/services
Разработка стратегии машинного обучения, https://www.altexsoft.com/blog/datascience/machine-learning-strategy-7-steps/
Большие данные, Википедия https://en.wikipedia.org/wiki/Big_data
IBM Data Refinery, https://www.ibm.com/cloud/data-refinery?S_PKG=&cm_mmc=Search_Google-_-Analytics_Watson+Data+Platform-_-WW_DE-_-+Data++Preparation_Broad_&cm_mmca1=000019=cm_mmca1=000019OO&cm_mmca1=000019OO&cm_cm_mmca1=000019OO&cm_ = 20229 & cm_mmca8 = KWD-313315197543 & cm_mmca9 = 95236ac3-c383-4292-8bd8-c18eb727e3ed & cm_mmca10 = 230276596521 & cm_mmca11 = Ь & mkwid = 95236ac3-c383-4292-8bd8-c18eb727e3ed% 7C456% 7C196491 & cvosrc = ppc.google.% 2Bdata% 20% 2Bpreparation & cvo_campaign = 000019OO & cvo_crid = 230276596521 & MatchType = b & gclid = Cj0KCQiAp8fSBRCUARIsABPL6JZwH4NxB5w47tGV1cDH6mm-nRbvGsAWQAv6cusSTlR62Y-Qf1cdoj4aAsQXEALw_wcB
Подготовка данных Google Cloud, https://cloud.google.com/dataprep/
38 лучших инструментов и платформ для подготовки данных https://www.predictiveanalyticstoday.com/data-preparation-tools-and-platforms/
Https://machinelearningmaster.com/how-to-prepare-data-for-machine-learning/
Http://download.microsoft.com/download/A/6/1/A613E11E-8F9C-424A-B99D-65344785C288/microsoft-machine-learning-algorithm-cheat-sheet-v6.pdf
Инфографика http://download.microsoft.com/download/0/5/A/05AE6B94-E688-403E-90A5-6035DBE9EEC5/machine-learning-basics-infographic-with-algorithm-examples.pdf
Https://www.altexsoft.com/blog/datascience/preparing-your-dataset-for-machine-learning-8-basic-techniques-that-make-your-data-better/