2018 год был годом искусственного интеллекта и машинного обучения, что очевидно, поскольку мы стали свидетелями взрывного роста стартапов Кремниевой долины. В них вливалось много венчурных денег, независимо от того, предоставляли ли они возможности чистой платформы, AI-Ops, каталогизацию данных и т. д. Однако по моему опыту я видел, что большинство компаний проявляют осторожность в принятии этих тенденций, позволяя лишь нескольким специалистам по данным и инновациям команды, чтобы баловаться с этими технологиями и держать эти команды отдельно от других. Однако есть несколько исключений, когда отказ от осторожности пошел на пользу некоторым компаниям. Почему некоторые компании осознали, что ИИ — это не научный эксперимент, а бизнес-необходимость? Что делает их такими замечательными и чему мы можем у них научиться? Когда дело доходит до этого, на самом деле есть только 5 основных факторов, которые способствуют успеху организации:

Эффективное управление данными Бурное развитие «больших данных» внесло хаос в управление данными и то, как организации обрабатывали данные на протяжении десятилетий. Компании должны были адаптироваться и научиться гибко переоснащать себя, чтобы управлять данными, поступающими в различных вариантах и ​​размерах (3 против больших данных — объем, разнообразие и скорость) в центральном хранилище. Hadoop стал нормой на многие годы и дал специалистам по данным площадку для доступа к необработанным данным и проверки своих гипотез. Однако это создает серьезные проблемы с точки зрения качества, точности и полноты данных. Высокооплачиваемые специалисты по данным тратят больше времени на очистку и стандартизацию данных, чем на создание моделей машинного обучения. Отсюда поговорка: «Ученые-данные тратят 80 % своего времени на очистку данных и 20 % жалуются на это».». Хотя предоставление доступа к данным в чистом виде имеет смысл, многие успешные компании внедрили многоуровневый подход к хранению данных. В современных платформах хранения данных, таких как HDFS или S3, легко создавать папки или сегменты для хранения, управления и предоставления доступа к определенным папкам или сегментам. Мы называем эти папки Landing Zone (данные RAW), L1 (очищенные данные), L2 (обогащенные основными данными и другими источниками) и так далее. В зависимости от варианта использования пользователи могут легко находить нужные данные и экспериментировать с ними.

Использование инноваций в инфраструктуре Наука о данных не является новой областью, страховые компании и хедж-фонды десятилетиями используют актуариев и количественных расчетов для определения портфельных рисков и автоматизированных инвестиционных возможностей. Однако объем данных был незначительным, характер данных был одномерным, а машинное обучение для автоматической перенастройки моделей отсутствовало. Однажды я услышал от крупного страхового брокера: «Мы фактически перемещаем все соответствующие данные в личную базу данных sql актуариев для «моделирования рисков и катастроф» всякий раз, когда у нас появляется новый потенциальный клиент. И, что еще хуже, базы данных не могут быть разделены между клиентами, и у нас остается целая куча избыточных баз данных, которые нужно очистить через некоторое время». С большими данными другая проблема: в локальном кластере включение архитектуры, которая обрабатывает все типы данных, является инфраструктурным кошмаром. Просто добавить узлы в кластеры не так просто, как вы думаете, поскольку вам нужны люди для управления кластерами и рабочими нагрузками. Успешные компании определили различные платформы (например, локальный кластер больших данных, AWS, Azure, GCP и т. д.) для интеллектуальной передачи и совместного использования рабочих нагрузок без больших затрат или накладных расходов. Например, страховая компания со Среднего Запада использует AWS для приложений и хранилищ данных, но GCP использует Tensorflow для своих моделей машинного обучения. Это лучшее из двух миров!

Использование моделей машинного обучения в производстве Что делает хорошие компании великими, так это способность идентифицировать прогностические модели, созданные для проверки гипотезы, и преобразовывать их в производственные модели, ориентированные на результат. Недавно я столкнулся с крупным финансовым учреждением, которое хочет модернизировать программу по борьбе с отмыванием денег и обнаружению мошенничества, используя возможности больших данных и Spark. Это позволяет им быстрее, эффективнее и точнее прогнозировать мошеннические транзакции с помощью Kafka, Spark и Python. В традиционной конфигурации это было бы невозможно из-за устаревших технологий, таких как Oracle, R и т. д. Теперь другое финансовое учреждение стремится модернизировать свои модели риска, используя те же технологии. Это тренд в процессе становления. Spark, Kafka и Python становятся нормой и могут бесконечно масштабироваться с увеличением объемов данных и скорости, но эластичность (масштабирование вверх и вниз) является ключевым фактором сдерживания затрат, а облако — идеальная платформа для этого. Такие продукты, как DataRobot и H20.ai, могут помочь внедрить готовые к производству модели, а также использовать преимущества эластичных распределенных вычислений.

Определение правильных показателей для количественной оценки успеха Современная корпорация, движимая финансовыми рынками и социальными сетями, несет фидуциарную ответственность за увеличение прибыли акционеров, стремясь сохранить существующих клиентов и привлечь новых клиентов с помощью инновационных продуктов и опыта. Тем не менее, компаниям приходится выходить за рамки простого привлечения клиентов и оттока вариантов использования, а также учиться мыслить в долгосрочной перспективе. Создание централизованной стратегии обработки данных, при которой несколько групп специалистов по обработке и анализу данных могут повторно использовать данные в проектах машинного обучения, — отличный способ ускорить вывод продукта на рынок и показать заинтересованным сторонам рентабельность инвестиций. Один производственный заказчик приступил к амбициозной глобальной программе профилактического обслуживания на основе IOT. Они создали исследовательскую группу для определения различных машин, их моделей, нюансов между каждой моделью/устройством и количественной оценки стоимости (программа, инфраструктура, датчики, дизайн, разработка и т. д.) вплоть до уровня устройства, чтобы обосновать рентабельность инвестиций и сумму, которую нужно взимать. клиентов для этой новой функции. Они также разбили его на более мелкие этапы, чтобы постоянно учиться и приспосабливаться к нему. Это был новый источник дохода, который осчастливил как акционеров, так и клиентов, получивших эту расширенную функцию. Это яркий пример того, как компании должны использовать долгосрочные и хорошо продуманные модели для обеспечения успеха.

Культура, основанная на данных Без сильной организационной культуры, основанной на данных, ничто из вышеперечисленного не может быть успешным. Некоторые крупнейшие мировые компании, такие как Amazon, Google и Facebook, приняли данные как часть корпоративной культуры. Вот некоторые вещи, которые они и вышеупомянутые клиенты делают хорошо:

  • Отношение к данным как к корпоративному активу.
  • Создание центральной стратегии данных (Data Hub) для интеграции всех типов данных
  • Сильное управление данными и передача данных.
  • Каталогизация данных с поддержкой машинного обучения для эффективного поиска данных.
  • Надежное управление основными/справочными данными.
  • Сочетание возможностей подготовки и обработки данных под руководством ИТ и самообслуживания.
  • Внедрение возможностей самообслуживания для визуального взаимодействия с данными.

В следующем посте мы подробно остановимся на самообслуживании.