Ключевым ресурсом эпохи ИИ являются обучающие данные; тихое соперничество идет, чтобы получить его

В 2007 году в Кремниевой долине звучала поговорка: «Если вы не платите, значит, вы и есть продукт». В нем описывалась бизнес-модель бесплатных веб-сервисов, таких как Google, Facebook и других. Десятилетие спустя его можно обновить: «Вы — обучающие данные».

Данные — это жизненная сила ИИ. Крупные веб-платформы полагаются на взаимодействие с пользователем — и порождаемый им «источник данных» — для улучшения своих услуг в непрерывном цикле обратной связи.

На нас надвигается «экономика данных».

В недавней статье в MIT Sloan Management Review (здесь) Джеймс Э. Шорт и Стив Тодд поднимают два показательных случая:

  • В 2016 году при банкротстве игорной фирмы Caesars Entertainment некоторые кредиторы оценили стоимость данных ее программы лояльности в 1 миллиард долларов, ее самый ценный актив. Судебный эксперт по делам о банкротстве отметил, что продажа недвижимости Caesars без доступа к данным привела к снижению доходов.
  • В 2016 году Microsoft приобрела LinkedIn за 26 миллиардов долларов. У него было 100 миллионов активных пользователей в месяц (из 433 миллионов зарегистрированных пользователей), что означает, что Microsoft платила 260 долларов за каждого активного пользователя в месяц.

Но это всего лишь данные для классического анализа. Что нового, так это степень, в которой компании соревнуются в сборе обучающих данных, т.е.:

  • Open Images Dataset Google содержит 9 миллионов изображений.
  • Набор данных YouTube-8M от Google содержит 8 миллионов помеченных видео.
  • ImageNet, одна из первых открытых обучающих баз данных ИИ, содержит 14 миллионов категоризированных изображений (составленных за два года почти 50 000 человек).
  • В 1961 году Коричневый корпус был стандартным набором данных для английских слов из 1 миллиона. В 2006 году Google выпустил n-gram файл из 1 триллиона слов.
  • Программа Google DeepMind и Оксфордского университета в 2016 году по обучению системы чтения по губам содержала 17 428 уникальных слов, в то время как в другом оксфордском проекте под названием LipNet было всего 51 слово. (Это указывает на то, что я называю разрывом в данных ИИ здесь).

  • В мае 2017 года в Наборе данных Vistas Mapillary было 130 миллионов изображений для алгоритмов беспилотных автомобилей в различных условиях.
  • В декабре 2016 года Tesla заявил, что у него есть данные о пробеге 1,3 миллиарда миль от его автомобилей при разных дорогах и погодных условиях по всему миру. Он также хочет поделиться данными (здесь).
  • SpaceNet имеет 1900 квадратных километров спутниковых снимков высокого разрешения (эй… это начало!) под лицензией Creative Commons.

Список общедоступных наборов данных для обучения моделей машинного обучения находится в AI2, Институте искусственного интеллекта Аллена, и Fueling the Gold Rush: The Greatest Public Datasets for AI», Люк де Оливейра, февраль 2017 г. .

Дело не в том, что представляют собой наборы данных, а в том, что они вообще существуют. Он показывает, в какой степени сообщество ИИ осознает, что ценным, дефицитным ресурсом, который будет определять, существует ли яркая конкуренция или доминирование на рынке в ИИ, является доступность данных для обучения моделей.

Фактически объектив, с помощью которого можно рассматривать многие недавние сделки, связан с борьбой за безопасный доступ к данным.

Таким образом, в 2015 году IBM купила цифровые и информационные активы Weather Channel за 2 миллиарда долларов. Он может производить гиперлокальный прогноз погоды с разрешением всего 0,2 мили с помощью 195 000 персональных метеостанций (подробнее).

Тем не менее приобретение медицинских данных IBM является наиболее заметным. В 2015 году она купила Explorys, компанию, занимающуюся технологиями в области здравоохранения, вышедшую из престижной Кливлендской клиники, за ее 315 миллиардов точек данных по финансовым, операционным и медицинским записям более чем 50 миллионов человек (подробнее). В том же году IBM снова купила Merge Health за 1 миллиард долларов, чтобы получить доступ к своей базе данных медицинских изображений (КТ, МРТ, рентген и т. д.), которая к апрелю 2017 года превысила 1 миллиард изображений (подробнее). Она приобрела Phytel за 45 миллионов записей о пациентах (подробнее). А в 2016 году она купила Truven Health Analytics за 2,6 миллиарда долларов, добавив в свою базу данных 215 миллионов пациентов.

С другой стороны уравнения данных, приобретения GE заключались в получении экспертных знаний в области ИИ, таких как Meridium, Wise.io и Bit Stew (читай больше и больше), поскольку у нее уже есть доступ к самим данным через свои собственные промышленные операции или своих производственных партнеров. Точно так же Salesforce совершила миллионы относительно небольших приобретений для возможностей ИИ (например, Krux, PredictionIO, Implisit, BeyondCore), но не для данных; его клиенты приносят свои данные на платформу. Но ясно, что Salesforce хочет получить данные: она делает ставку на LinkedIn. И, вероятно, он присматривается к InsideSales.com, единорогу, сидящему на огромном сундуке с сокровищами данных о продажах, в котором генеральный директор Salesforce Марк Бениофф является инвестором.

Безусловно, идея борьбы за получение данных или их оценку существует уже давно.

В статье, которую я написал в соавторстве с Виктором Майером-Шенбергером в Wall Street Journal несколько лет назад (здесь), мы отметили, что:

«Ценность [данных] не совсем понятна. Одной из причин являются правила бухгалтерского учета, в которых возникают проблемы с обращением с нематериальными активами. Эфемерные вещи, такие как бренды, обычно считаются активами при их покупке, поскольку была проведена рыночная сделка, чтобы придать им денежную ценность. Их нелегко зарегистрировать в бухгалтерских книгах, если компания разрабатывает их внутри компании. Обычно это происходит и с данными».

И мы также говорили о том, как компании пытались оценить данные в нашей книге 2013 года Большие данные (отрывок выше).

В настоящее время данные являются одной из важнейших составляющих конкурентного преимущества фирмы. Эта идея породила взаимные приложения данных. По словам Дрю Брейнига, который, по-видимому, придумал термин (здесь): это обмен, предназначенный для стимулирования создания обучающих данных, а также для предоставления продуктов, основанных на собранных данных. Люди получают более качественные приложения, а компании — более качественные данные.

В мае мой коллега Людвиг Зигеле опубликовал в The Economist статью для обложки, посвященную сложности создания рынка данных (здесь). Среди приятных аперитивов:

  • «Данные будут абсолютным внешним фактором: мы будем генерировать их, что бы мы ни делали». — Пол Зондереггер из Oracle.
  • «Эффект сети передачи данных»: использование данных для привлечения большего числа пользователей, которые затем генерируют больше данных, которые улучшают услуги, что привлекает больше пользователей.
  • К концу 2016 года у Tesla было данных о пробеге 1,3 миллиарда миль — на порядок больше, чем у Waymo, подразделения Google, занимающегося беспилотными автомобилями.
  • Сложность ценообразования объясняет, почему одна фирма может купить другую, даже если ее в основном интересуют данные. Так было в 2015 году, когда IBM, как сообщается, потратила 2 миллиарда долларов на Weather Company, чтобы получить в свои руки горы данных о погоде и инфраструктуру для их сбора.
  • Данные демонстрируют «убывающую отдачу от масштаба»: каждый дополнительный фрагмент данных менее ценен, и в какой-то момент больше ничего не добавляет.
  • Google — это качество алгоритмов и талантов, а не данных. Речь идет о «рецептах, а не ингредиентах». — Хэл Вариан, главный экономист Google.
  • Имея больше и более свежие данные, чем другие, суперплатформы могут быстро обнаруживать конкурентные угрозы. Они могут манипулировать рынками, которые они размещают, заставляя свои алгоритмы быстро реагировать, чтобы у конкурентов не было шансов привлечь клиентов за счет снижения цен. (Статья журнала Economist об алгоритмическом сговоре находится здесь)
  • «Данные — это труд», — считает Глен Вейл, экономист Microsoft Research. Он разрабатывает систему для измерения стоимости отдельных вкладов данных, чтобы создать основу для более справедливого обмена.

Что дальше с данными — как с ресурсом и как с классом активов? Напишите мне о своих взглядах через www.cukier.com или в твиттере: @kncukier