Данные: Новое жидкое золото

Революция в области искусственного интеллекта вызывает смену парадигмы в том, что раньше было барьером для входа для компаний эпохи Интернета. Алгоритмы машинного обучения становятся открытыми и легко доступны через различные оптимизированные фреймворки (Tensorflow, Caffe, Theanos, Keras, Torch и т. Д.) И мощные аппаратные опции, широко доступные на периферии (встроенные SOC графического процессора на устройстве) или в облаке ( nVidia Grid, экземпляры GPU на AWS, Azure или Google Cloud Platform) компании в мире, основанном на искусственном интеллекте, смещают акцент с защиты оборудования и алгоритмов на защиту прав собственности на данные, поскольку компания, стремящаяся к созданию искусственного интеллекта, получит преимущество над другими только благодаря уникальному доступу к высококачественным размеченным данным.

Это связано с тем, что наиболее эффективный вариант из доступных в настоящее время вариантов подхода к искусственному интеллекту - глубокому обучению основан на обучении гипотетической модели с миллионами аннотированных комбинаций входных и выходных данных. Итеративное обучение продолжается до тех пор, пока модель не научится предсказывать правильный результат для заданного набора входных данных. В большинстве общих случаев, чем больше набор обучающих данных, тем проще и быстрее происходит сходимость к точно работающей модели. Хотя алгоритмические инновации для уменьшения зависимости от огромных наборов данных могут в конечном итоге наверстать упущенное и помочь достичь столь же хороших результатов с меньшим объемом обучающих данных, более быстрое время вывода на рынок сегодня по-прежнему требует очень большого обучения набор данных.

Это станет более понятным, если мы рассмотрим первых, которые будут предлагать значимый искусственный интеллект, например, давайте посмотрим на Google, Apple, Facebook, Uber и Tesla.

Gmail предлагал 1 ГБ бесплатного дискового пространства при запуске в 2004 году, что тогда казалось безумием по сравнению с двумя мегабайтами, предлагаемыми его конкурентом - Hotmail. Сегодня это уже не кажется таким безумным. Четкий классификатор спама, который сегодня имеет Gmail, был бы невозможен, если бы не огромный набор обучающих программ, предоставленный более чем миллиардом активных пользователей. Миллиарды поисковых запросов помогли Google обучить автозаполнению результатов поиска. Это похоже на то, как каждое обновление программного обеспечения или новая функция вводились как механизм для сбора все большего и большего количества данных о поведении пользователей, которые затем закладывали основу для следующего более качественного обновления сервиса. Поисковая система Google, Gmail и Карты открыли путь для Google сейчас. OK Google помог расширить набор данных преобразования голоса в расшифровку и открыл двери для еще более качественной голосовой поддержки в виде Google Home. Мы так сильно полагаемся на Google в своей повседневной жизни, но предоставили ему привилегированное положение для сбора данных о наших симпатиях и антипатиях, привычном поведении, например о местах, которые мы часто посещаем, о том, что мы читаем, о том, что нам интересно, о нашем расписании, о нашем круги, дороги, по которым мы ездим, и многое другое. Google превратился в личного помощника, который, хотя и хотел помочь вам самым простым способом, узнал о вас все. Иметь специальное приложение для каждой из ваших потребностей, которое обслуживает вас, когда просят - что было революцией прошлого десятилетия - сегодня недостаточно. Цифровые пользователи этого возраста хотят большего. Желание состоит в том, чтобы иметь своего рода цифровой помощник с искусственным интеллектом, который обслуживает и заранее обдумывает ваши потребности без необходимости просить об этом. Этого нелегко достичь обычными методами, и именно здесь на помощь приходит глубокое обучение. Создание чего-то такого масштаба возможно, если для обучения модели точного прогнозирования доступны данные о поведении пользователей, собранные за дни, недели, месяцы или, возможно, годы. . Это точная причина, по которой это пространство недоступно для стартапа, и Google должен был быть первым, кто взломал это пространство.

Новому игроку будет сложно завоевать авторитет и доверие среди пользователей в той степени, в которой Google за последнее десятилетие и, следовательно, когда-либо пользовался подобной привилегией проникать в нашу личную жизнь, чтобы отслеживать наши данные. Доступ к аннотированным данным хорошего качества будет самой большой проблемой для любого стартапа в области искусственного интеллекта, потому что алгоритмы машинного обучения сами по себе могут делать очень много и чаще всего их производительность ограничивается масштабом и качеством передаваемых им обучающих данных. Вероятно, почему Рэй Курцвейл, один из поборников машинного обучения и искусственного интеллекта, предприниматель и идейный лидер, решил присоединиться к Google, в отличие от создания независимой компании, потому что его миссия по созданию настоящего искусственного интеллекта разумна только в том случае, если опирается на данные в масштабе Google.

Другие гиганты, пользующиеся такой желанной позицией по сбору данных в нашей жизни и использующие их для получения максимальной отдачи от революции в области искусственного интеллекта, - это Apple, Facebook, Uber и Tesla. С каждым обновлением программного обеспечения на моем iPhone или в приложении Facebook всегда приятно видеть, как условия соглашения каждый раз запрашивают больше разрешений. Это всегда заставляет меня задумываться, что они могут выкатить дальше, чтобы сделать нашу жизнь лучше, например всплывающее окно на моем iPhone за прошлый месяц:

Меня всегда волнует, как эти компании включают точки сбора данных. Например, преобразование голоса в стенограмму было сложной задачей. В одном из обновлений iOS в прошлом году мы увидели бета-версию Transcription Beta на iPhone, в которой голосовые сообщения использовались в качестве данных проверки, чтобы, вероятно, обучить голос для транскрипции нейронных сетей.

Задача получить аннотированный набор обучающих данных была бы непростой (ну, такая компания, как Apple, может просто заплатить за нее), но добавление «Была ли эта транскрипция полезной или бесполезной?» могла быть попыткой создать набор данных для проверки.

Вероятно, то же самое применимо и к алгоритму распознавания лиц Facebook - им пришлось опередить кого-нибудь еще, потому что, в конце концов, у них был самый большой набор данных с тегами / помеченными изображениями.

Настоящие самоуправляемые автомобили еще не увидели свет, но я не удивлюсь, если Uber станет первым, кто выиграет гонку на рынке с миллионами водителей, уже разъезжающих по всему миру, которые могут тренироваться. машины намного быстрее, и это тоже в самых разных условиях.

Tesla начала поставлять все автомобили с аппаратной поддержкой автономного вождения в прошлом году, не включая эту функцию. Более раннее развертывание оборудования на дороге до фактического включения этой функции заключается в сборе миль аннотированных данных обучения для беспилотных автомобилей - для создания обучающего набора с поведением водителя при рулевом управлении / торможении / ускорении в ответ на различные входные условия, собранные датчики / камеры / РАДАР / ЛИДАР на автомобили.

В то время как признанные гиганты, имеющие доступ к самым большим наборам данных или обладающие способностью получать самые лучшие наборы данных, будут первыми, кто успешно достигнет успеха в области искусственного интеллекта, интересно наблюдать за созданием новых задач, которые стартапы могут стремиться решить. Например, решения для решения самой большой проблемы - рендеринга данных высокого качества в большом количестве. У нас уже есть несколько кандидатов, которые воспользовались этой возможностью.

CrowdAi обеспечивает высококачественную аннотацию изображений. Lattice Data (Apple только что приобрела Lattice за 200 миллионов долларов) работает над преобразованием неструктурированных данных в более значимые данные, которые могут быть переданы в алгоритмы машинного обучения. Amazon Mechanical Turk - это попытка решить проблему маркировки данных с помощью грубой силы, а Nexla предлагает операции с данными в качестве услуги только что объявила о финансировании в размере 3,5 млн долларов.

Настало время для предприятий, которые собирают и хранят большие данные, наконец, монетизировать их, потому что, как выразился Эндрю Нг, выиграют не те, у кого лучший алгоритм, а те, у кого лучшие данные .

Данные: Новое жидкое золото

Вопросы по теме