Анализ основан на опросе более 100 специалистов по обработке данных и исследователей ИИ.

Вступление

Искусственный интеллект (ИИ) превратился из простых статистических моделей в питание беспилотных автомобилей, управление портфелями акций и прогнозирование бюджетов. Компании извлекают выгоду из машинного обучения (ML), улучшая процесс принятия решений и открывая новые возможности. Например, канадская больница использует машинное обучение для прогнозирования суммы денег, которую они могут получить от государства за отдельные операции, что позволяет им сразу же начать планирование финансовых операций. Перед использованием ML процесс занял более трех месяцев, между выяснением кодов выставления счетов, их отправкой правительству и получением утвержденных сумм обратно. Теперь бухгалтеры знают - с точностью 95% - какие коды будут одобрены и сколько денег они получат за операции, еще до того, как они начнутся.

Так в чем проблема?

Хотя есть еще много возможностей для роста внедрения машинного обучения, похоже, что на рынке произошел сбой. С одной стороны, существует множество созданных и опубликованных передовых моделей машинного обучения, которые потенциально могут решить бизнес-проблемы и открыть новые способы выполнения задач. С другой стороны, довольно сложно найти и адаптировать эти модели для извлечения выгоды для бизнеса. Что здесь происходит на самом деле?

1. Существует несоответствие между потребностями рынка и направленностью исследований.

Исследователи постоянно расширяют границы возможностей машинного обучения. Однако потребности рынка часто не совпадают с интересами исследователей. Ученые в основном сосредоточены на современных алгоритмах, которые могут помочь защитить публикации и правительственные гранты, но не обязательно решат сиюминутные бизнес-проблемы.

Более того, даже если их исследования имеют коммерческий потенциал и решают бизнес-задачи, большинство ученых не пытаются вывести свои инновации на рынок. Исследователи открывают свои публикации и исходный код для общественности, но редко оптимизируют их для удобства использования или воспроизводимости. Кроме того, академические публикации в основном сосредоточены на теории, а не на применении, а сопутствующий код не готов к производству и не масштабируется. В редких случаях, когда исследователи пытаются коммерциализировать свою работу, они по-прежнему сталкиваются с трудностями при построении убедительного экономического обоснования.

По этим причинам многие великие инновации, исходящие от лабораторий искусственного интеллекта, либо никогда не выходят на рынок, либо их внедрение значительно задерживается.

2. Компаниям не хватает навыков, необходимых для преодоления разрыва между потребностями бизнеса и возможностями машинного обучения.

Хотя машинное обучение является относительно доступной технологией, поскольку большая часть инфраструктуры и инструментов имеет открытый исходный код, сегодня только небольшая часть предприятий может извлечь из этого выгоду.

Одна из основных причин этого - недостаток опыта. Поскольку эта отрасль относительно новая, найти нужных людей - непростая задача ». В наличии не так много опытных специалистов, и большинство из них уже работают в крупных компаниях или исследовательских учреждениях.

Во-вторых, специалисты по обработке данных, как правило, специализируются в разных областях, но многие компании не понимают этих различий. Например, роли «специалиста по данным» и «инженера по машинному обучению» часто путают. Из-за этого многие компании совершают ошибку, нанимая людей с теоретическим опытом для программирования или программистов для создания моделей машинного обучения. Это несоответствие часто приводит к плохому результату.

В-третьих, для развертывания работающего решения машинного обучения компании нужна команда по крайней мере из двух специалистов: один с теоретическими знаниями для разработки решения машинного обучения для данной проблемы, а другой с опытом программирования для его производства или интеграции в другие продукты. В некоторых случаях требуется третье лицо для настройки правильной инфраструктуры и развертывания моделей. Однако поддерживать такую ​​команду дорого, особенно для стартапов.

Наконец, еще одним препятствием является просто незнание возможностей и ограничений машинного обучения. Большинству компаний сложно сопоставить бизнес-проблемы с возможностями машинного обучения. Из-за этого многие компании не утруждают себя поиском решений, связанных с машинным обучением. Даже когда в их команде есть специалисты по обработке данных, они либо недостаточно используют свой потенциал, либо требуют решений, которые сегодня практически невозможно решить с помощью машинного обучения.

3. Специалистам по обработке данных трудно идти в ногу с быстрым развитием машинного обучения.

У специалистов по данным есть свой набор проблем. Поскольку ИИ - это очень быстро развивающаяся отрасль, модели, разработанные сегодня, могут потерять актуальность к следующему году. По этой причине специалисты по обработке данных должны всегда быть в курсе последних достижений в этой области . Это создает проблему, поскольку нет простого способа протестировать новый алгоритм, кроме его репликации или повторной реализации, что является дорогостоящим с точки зрения вычислений и длительным процессом. Кроме того, у исследователей машинного обучения не всегда есть время оказать поддержку в своей работе².

Часто исследователи разрабатывают свои алгоритмы с использованием фреймворков, отличных от используемых в отрасли (например, Torch vs. TensorFlow), поэтому специалистам по данным приходится переписывать код. Кроме того, специалистам по обработке данных приходится бороться с ошибками, связанными с несовпадением версий и настройками среды. Только тогда они смогут начать тестирование, можно ли использовать этот новый алгоритм для решения их проблемы.

Еще одна проблема для многих специалистов по обработке данных - это природа глубокого обучения (DL). За последние 5 лет большая часть достижений в машинном обучении пришла из DL. Однако исследователям данных сложнее объяснить ключевые факторы, которые учитывала модель DL. Модели DL создают собственное сопоставление входов и выходов³, в отличие от классического машинного обучения, где специалисты по данным предопределяют эти сопоставления. Отсутствие объяснимости затрудняет построение бизнес-обоснования для управленческой команды, которая затем принимает решения на основе прогнозов модели. Эта проблема особенно важна в финансовом секторе и секторе здравоохранения, где возможность аудита имеет решающее значение с учетом нормативных требований, таких как GDPR.

Из-за этого только крупные и устоявшиеся технологические компании могут в полной мере извлечь выгоду из прогресса, достигнутого в области машинного обучения сегодня.

Как нам сократить разрыв в использовании машинного обучения в промышленности?

1. Разработка стандартного способа поиска, обмена и использования моделей.

Чтобы сделать исследования машинного обучения более доступными и ускорить его внедрение, должен быть стандартный способ для исследователей делиться своими моделями, а для разработчиков и специалистов по обработке данных, чтобы легко получить к ним доступ без необходимости повторного обучения или сложных настроек среды. Это также может быть способом для исследователей отслеживать использование и улучшать свои модели, а также извлекать экономическую выгоду из своих инноваций без особых дополнительных усилий.

Следует поощрять исследователей делиться своей работой с использованием инструментов, принятых на рынке, таких как стандартные фреймворки в рамках контейнерной технологии, такой как Docker. Кроме того, исследователи должны знать, с какими проблемами сталкивается рынок. Хорошим примером игрока, добившегося прогресса в этом направлении, является Kaggle⁴.

2. Бизнес-менеджеры должны понимать возможности и ограничения машинного обучения.

Компании должны вкладывать средства в то, чтобы их персонал понимал, для каких проблем подходит машинное обучение, а также что оно может и чего не может. Этого можно достичь, инвестируя в программы обучения в реальном времени или онлайн-курсы (MOOCS), посещая конференции по машинному обучению и интерактивные семинары, которые могут помочь им определить области, в которых решение машинного обучения является идеальным.

3. Инвестиции в технологии для улучшения рабочих процессов в области обработки данных.

Чтобы помочь разработчикам внедрить технологии машинного обучения на рынок, необходимо увеличить инвестиции в готовые решения или инструменты, упрощающие внедрение и развертывание машинного обучения. Это позволит разработчикам даже без сильного опыта работы с машинным обучением извлечь из этого выгоду. Facebook является примером компании, которая вложила значительные средства в обеспечение доступа к машинному обучению изнутри через свою платформу FBLearner⁵, которая автоматизирует построение, обучение и масштабирование алгоритмов машинного обучения. Этой платформой пользуется более 25% инженеров Facebook, на ней обучено более миллиона моделей⁵

Благодарности

Мы хотели бы поблагодарить Creative Destruction Lab за их поддержку и за то, что они связали нас с наставниками и консультантами.

Кроме того, мы хотели бы особо поблагодарить Эми тер Хаар и Озге Йелоглу за советы по этому проекту и Кунала Хосла за поддержку бизнеса и стратегии.

Кроме того, мы хотели бы поблагодарить следующих людей за их ценные отзывы: Афини Акдемир, Эйдан Кехо, Айсулу Салиева, Кристофер Инг, Эхсан Амджадиан, Никита Варабей, Касим Мохаммад, Роберт Абухалил, Роял Секейра, Томаш Бабедж и Уильям Лабонте.

Спасибо более чем 100 компаниям, исследовательским группам и отдельным лицам, которые приняли участие в нашем опросе и встретились с нами, чтобы обсудить состояние внедрения AI / ML в отрасли.

Ссылки

  1. Http://www.tisi.org/Public/Uploads/file/20171201/20171201151555_24517.pdf
  2. Http://www.sciencemag.org/news/2018/02/missing-data-hinder-replication-artificial-intelligence-studies
  3. Https://cs.nyu.edu/~fergus/papers/zeilerECCV2014.pdf
  4. Http://www.koreascience.or.kr/article/JAKO201613752758186.page
  5. Https://code.fb.com/core-data/introduction-fblearner-flow-facebook-s-ai-backbone/