Как строить машины лучше, чем бурить в поисках нефти

Когда вы в последний раз покупали сырую нефть?

Данные - это новая нефть - это уже распространенная фраза, утверждающая важность данных как ключевого ресурса. Но Клайв Хамби на самом деле придумал это в контексте важного наблюдения, которое часто упускается из виду: большинство людей не ходят в магазин за сырой нефтью. По его словам,

Данные такие же грубые. Это ценно, но в неочищенном виде не может быть использовано. Его нужно заменить на газ, пластик, химикаты и т. Д., Чтобы создать ценный объект, который будет стимулировать прибыльную деятельность.

Необработанные данные, такие как поток кликов, последовательность финансовых транзакций или свалка медицинских записей, очень трудно использовать. Как и масло, его необходимо усовершенствовать и преобразовать в более удобные для использования формы, такие как чистые, организованные таблицы данных.

Вы не покупаете бензин из-за его декоративной ценности. Вы покупаете его для приведения в действие двигателя вашего автомобиля, чтобы вы могли добраться туда, куда вам нужно, - и это создает ценность.

Машинное обучение и ИИ - новый двигатель внутреннего сгорания

Данные работают точно так же. На самом деле ценность создает продукт. В этом посте мы сосредоточимся на информационных продуктах, которые используют данные для создания ценности.

Информационным продуктам необходим механизм, который потребляет уточненные данные и обеспечивает создание ценности. Этот механизм может быть таким же простым, как и простой способ отображения важных аспектов данных, чтобы люди могли принимать более обоснованные решения. Мы называем это «аналитикой». Механизм также может быть более сложным: прогнозы, сделанные с помощью модели машинного обучения, или нейронной сети, которая идентифицирует объекты на изображении.

Машинное обучение и ИИ - это новый двигатель внутреннего сгорания, а информационные продукты - это новые автомобили.

Взятые вместе, эти компоненты образуют цепочку создания стоимости информационного продукта:

Иногда части этой цепочки могут быть переданы на аутсорсинг. Например, многие компании успешно продают «аналитику» или «идеи». По сути, это заводы по переработке данных: их продукт - это уточненные данные или иногда даже двигатель. Затем другие продукты используют их для создания стоимости на рынке. Бизнес-модель и стратегия переработки данных сильно отличаются от бизнес-модели и стратегии обработки данных, на которых я сосредоточен здесь.

Соответствие продукта / данных: стратегия обработки данных для информационных продуктов

Этот пост посвящен стратегии обработки данных для информационных продуктов и тому, как найти соответствие продукта / данных. Все дело в том, чтобы выяснить, как элементы этой цепочки сочетаются друг с другом, чтобы оптимизировать создание ценности.

Этот процесс основан на понимании того, как продукт использует данные для создания ценности для бизнеса. Это поможет вам по мере продвижения вверх и вниз по цепочке ответить на такие вопросы, как:

  • Каковы наиболее эффективные механизмы оптимизации создания ценности?
  • Сколько и какого типа уточненные данные нужны движкам?
  • Как вы генерируете (или собираете), а затем уточняете необработанные данные?

Один из способов задуматься над этими вопросами - понять рентабельность инвестиций в двигатель. Для простоты я сосредоточусь на случае, когда движком является модель машинного обучения.

Инвестиции в модель включают затраты времени и долларов на сбор и хранение данных. Он также включает время и стоимость уточнения данных и обучения модели.

Возврат модели зависит от двух компонентов:

  • точность модели
  • коммерческая ценность, полученная на основе правильного прогноза (в долларах, кликах или другой поддающейся количественной оценке метрике), а также коммерческие издержки, связанные с неправильным или неточным прогнозом.

Стратегия данных - это создание лучших автомобилей

Ключ к стратегии обработки данных: сосредоточьтесь на увеличении прибыли, а не на увеличении инвестиций. Это кажется очевидным, но часто теряется в шумихе вокруг данных и ИИ.

Некоторые люди сосредотачиваются исключительно на количестве данных. Именно они всегда жалуются, что «нам нужно больше данных!» или хвастаются тем, что «мы генерируем так много данных ! ».

Но эти фразы часто указывают на плохую стратегию работы с данными. Они делают упор на инвестиции, а не на отдачу. Настоящая цель - создавать лучшие автомобили с более эффективными двигателями, а не накапливать больше сырой нефти.

Смысл стратегии данных состоит в том, чтобы создавать лучшие автомобили с более эффективными двигателями, а не накапливать больше сырой нефти.

Еще одно распространенное отвлечение - слишком много внимания уделять двигателю. Вы не стали бы использовать реактивный двигатель для приведения в действие скутера. Точно так же для большинства продуктов с данными на ранних стадиях сложное машинное обучение и ИИ являются излишними. В 99% случаев лучше инвестировать в выяснение того, как ваш продукт создает ценность на рынке, чем во внутреннюю работу нейронной сети.

Подберите движок к вашим данным

Как вы увеличиваете отдачу от своей модели? Один из способов - повысить точность модели. Но это также увеличит вложения: вам понадобится больше данных или более эффективные методы. Таким образом, ключевым моментом здесь является сохранение положительной рентабельности инвестиций за счет сопоставления движка с объемом данных, которые у вас есть.

Одним из примеров является эволюция рекомендательной системы:

  • Начните с того, что порекомендуйте самые популярные товары всем пользователям. Для этого не требуются данные на уровне пользователя, а рекомендации основаны на простой сводной статистике, поэтому вложения очень малы.
  • По мере сбора более детализированных данных вы можете делать предложения типа «пользователи, купившие X, также купили Y». Для этого требуется достаточно данных для каждого пользователя, но методы все еще очень просты.
  • Зрелый механизм рекомендаций будет учитывать полную историю покупок пользователя в дополнение к другим характеристикам пользователей и товаров, часто используя метод, называемый совместная фильтрация.

По мере увеличения объема данных движок переходит от простой сводной статистики к полноценному машинному обучению. Модель становится все более и более точной, но вы никогда не инвестируете больше, чем необходимо для того объема данных, который у вас есть на каждом этапе.

На данные распространяется закон убывающей доходности ...

В конце концов, становится сложно масштабировать рентабельность инвестиций только на основе точности. Причина в том, что данные подлежат уменьшающейся доходности.

Предположим, вы хотите спрогнозировать результаты выборов в штате с 1 000 000 избирателей, которые выбирают между двумя кандидатами, Дейзи и Минни. Вы опрашиваете 200 случайных избирателей, и 53% из них голосуют за Дейзи. Получается, что можно быть уверенным на 80%, что Дейзи действительно выиграет. Но если вы хотите быть уверены на 90%, вам понадобится более чем вдвое больше, около 450 избирателей. Чтобы получить 95%, вам понадобится 750, а для 99% еще 750.

Настоящие опросы на выборах, очевидно, намного сложнее, как и любая проблема с реалистичными данными, с которой вы, вероятно, столкнетесь. Но принцип остается прежним. По мере того, как вы стремитесь делать свои прогнозы все более и более точными, объем данных, которые вам необходимо собрать, увеличивается в геометрической прогрессии.

… Как машинное обучение и ИИ

Можете ли вы решить эту проблему, используя более мощный движок, например глубокое обучение? Не так много. Сложные методы, как правило, требуют гораздо больших объемов данных, и они также имеют уменьшающуюся отдачу.

MNIST - это набор данных, состоящий из изображений рукописных цифр. Он широко используется в качестве набора данных игрушек при распознавании изображений, где цель состоит в том, чтобы правильно идентифицировать цифру на каждом изображении.

Один из простейших алгоритмов, который вы можете использовать для этой цели, - это полиномиальная логистическая регрессия. Несмотря на простоту, он правильно определяет около 92,5% цифр. Простая нейронная сеть - это следующий разумный шаг, и она может быстро привести вас к точности 99,3%. Очевидно, очень впечатляет, но учтите, что это всего на 7% лучше, чем у гораздо более простой модели. Дальнейших улучшений добиться еще труднее: современная модель глубокого обучения, использующая методы, недавно появившиеся в результате исследований, может повысить точность еще на 0,5%.

MNIST - игрушечный пример. Любая реалистичная задача будет намного сложнее, и вы должны ожидать более низкой точности от моделей. Иногда повышение производительности на 0,1% имеет большое значение, и имеет смысл использовать действительно сложные вещи. Тем не менее, и данные, и методы имеют очень сильную убывающую отдачу.

Задавайте более ценные вопросы

Из-за уменьшения отдачи от данных в конечном итоге становится трудно повысить рентабельность инвестиций модели машинного обучения, просто улучшив ее точность. Как еще можно это сделать?

Точность - это лишь одна из составляющих отдачи от данных. Другой - ценность прогноза для бизнеса. Один из способов подумать об этом - представить, что ваша модель точна на 100%. Как это повлияет на ваш бизнес? Это полностью касается вопроса, который решает модель, а не качества решения. Так что способ повысить рентабельность инвестиций - это задавать более ценные вопросы.

Вот пример. Дейзи баллотируется в офис и посылает добровольцев стучать в двери и увеличивать явку. Однако количество добровольцев ограничено, поэтому она хочет построить модель, ориентированную только на тех избирателей, которые могут проголосовать за нее, а не за ее оппонентку Минни. Это называется «моделированием реакции».

Есть более ценная модель, которую могла бы построить Дейзи: предсказать, какие избиратели проголосуют за нее, если ее посетит волонтер, но в противном случае останутся дома. Избиратели, которые, как ожидается, будут голосовать, даже если их не посещают, не станут мишенью, поэтому волонтеры посещают только тех избирателей, где они имеют значение. Это называется моделирование подъема.

Для точного моделирования подъема требуется гораздо больше данных, чем для традиционного моделирования отклика. Поэтому, если у Дейзи недостаточно данных, ей следует начать с построения моделей реакции и улучшать их по мере накопления данных. Но в конце концов ей следует перейти к моделям улучшения, даже если они менее точны, чем модели ответов, потому что в целом они более ценны.

Достижение соответствия продукта / данных

Подведем итоги, как можно повысить рентабельность инвестиций для вашей модели:

  • Повышая точность модели, обеспечивая при этом соответствие инвестиций в движок объему данных.
  • Увеличивая ценность прогноза для бизнеса, особенно если он может компенсировать менее точную модель.

Вот как вы находите соответствие продукта / данных: повторяйте, чтобы одновременно повысить ценность ваших данных, ваших моделей и вопросов, которые они решают.

Давайте посмотрим, как это разыграется в более реалистичной ситуации. Многие стартапы в сфере здравоохранения экспериментируют с системами поддержки клинических решений (CDS), продуктами, которые предназначены для помощи врачам в принятии сложных решений на основе данных.

Некоторые продукты CDS ориентированы на предоставление рекомендаций по лечению, но они часто сталкиваются с проблемами при принятии на рынок. Одна из причин заключается в том, что одно неверное предложение может серьезно подорвать доверие к системе. С точки зрения рентабельности инвестиций в модель цена неверного предложения чрезвычайно высока. Это означает, что модели, делающие предложения, должны быть чрезвычайно точными, что, в свою очередь, требует очень больших вложений. Вероятно, лучше отложить создание механизма предложений до тех пор, пока компания не обеспечит доступ к достаточному количеству данных, а также доверие пользователей.

Успешная стратегия построения CDS будет сосредоточена в первую очередь на областях, где точность менее важна. Один из способов сделать это - показать данные интуитивно понятным образом и предоставить полезную информацию для клинициста. Это очень распространенная тема при разработке продуктов для обработки данных, и я расскажу о ней в одной из следующих статей.

Нижняя линия

  • Стратегия данных - это создание более качественных продуктов, а не накопление большего количества данных или использование более сложных методов.
  • Для этого вы должны понимать, как ваш продукт использует данные для создания ценности, и сосредоточиться на увеличении рентабельности инвестиций ваших моделей.
  • Один из способов добиться этого - повысить точность моделей, но вы быстро столкнетесь с уменьшением отдачи.
  • Другой способ - найти более ценные вопросы, на которые могут дать ответы ваши данные, что может привести к повышению рентабельности инвестиций даже при использовании менее точных моделей.
  • Вот как вы находите соответствие продукта / данных: повторяйте, чтобы одновременно повысить ценность ваших данных, ваших моделей и вопросов, которые они решают.