Мнение

У предприятий есть множество проблем, которые можно решить дешево и масштабно с помощью Data Science. Чтобы понять эту возможность, важно оглянуться назад и посмотреть, как мы к этому пришли.

То же, что шесть сигм?

Многие люди в отрасли задают этот вопрос: разве мы не делали этого раньше? В конце концов, у нас уже несколько десятилетий есть шесть сигм, бережливое производство и т. д. Эти движения имели некоторое сходство с наукой о данных, например, мы превращали бизнес-задачи в математические или статистические задачи и решали их, используя строгий подход, вместо того, чтобы полагаться исключительно на опыт или специальные эксперименты и выводы. «Шесть сигм» и «бережливое производство» в значительной степени ограничивались производством, хотя также наблюдались побочные эффекты в других областях, таких как «бережливый маркетинг», «бережливое финансирование», «бережливая цепочка поставок». В любом случае данные собирались (обычно вручную), вся обработка чисел выполнялась аналитиками на рабочих столах, а результаты представлялись бизнесу в виде рекомендаций и реализовывались бизнес-функциями.

Оглядываясь назад на ERP, APS и BI

ERP были первыми «корпоративными приложениями» на сцене. Они управляют всеми транзакциями на предприятии и обеспечивают синхронизацию всех транзакций, например, когда материал поступает на склад от поставщика, создаются транзакции для логистики, инвентаризации, учета и т. д., и все они согласованы.

Приложения расширенного планирования и составления расписаний (APS) были первыми приложениями для «науки о данных», пионерами которых стали такие компании-разработчики программного обеспечения, как Numertix, i2, Manugistics и т. д. Они обрабатывали миллионы переменных с помощью процедур оптимизации и создавали оптимальные планы для различных задач планирования, таких как в производстве, логистике и т. д. Постепенно такие модели распространились почти на все области бизнеса, такие как управление доходами, управление доходами и т. д.

Вместе ERP и другие корпоративные приложения создали огромные объемы данных. Предприятия поняли, что путем нарезки и нарезки этих данных, особенно с взаимными корреляциями между разрозненными хранилищами, они могут получить много интеллектуальных данных. Инструменты, которые сделали этот процесс складирования, нарезки и составления отчетов по этим данным, были придуманы инструменты бизнес-аналитики (BI).

Почему этого было недостаточно?

У нас были инструменты Transactional, Planning и BI, и все они решали конкретные проблемы. Однако росло ощущение, что этого недостаточно, поскольку (1) объем, скорость и тип данных начали экспоненциально расти, например, по мере того, как предприятия внедряли мобильные клиентские приложения, цифровой маркетинг и (2) проблемы, которые предприятия хотели решить. решение стало становиться все менее и менее стандартным.

Предприятия боролись (и продолжают бороться) с внедрением различных систем планирования специального назначения. Недостаток этого подхода заключался в том, что бизнес-проблемы были слишком динамичными и быстро менялись со временем, при этом часто проявлялись новые аспекты проблем. Например, компании, которые хотели заниматься прогнозированием, остановились бы на методологии и подходе к прогнозированию предприятия (и внедрили их в приложение/систему) только для того, чтобы обнаружить, что определенные продукты, отделы, этапы жизненного цикла и т. д. лучше обслуживать отдельные , и очень разные подходы к прогнозированию. Универсальный подход просто не работал, и это приводило к проблемам с распространением инструментов и раздутым программным обеспечением, требующим больших затрат на обслуживание.

А потом появилась возможность

За последнее десятилетие произошли три важных события, которые открыли новый подход к созданию приложений, управляемых данными.

  1. Инфраструктура по запросу, то есть более дешевое хранилище и быстрая обработка в облаке
  2. Достижения в области статистического обучения и вычислительных решений
  3. Программное обеспечение с открытым исходным кодом для науки о данных

Благодаря облаку компаниям больше не нужно покупать дорогие компьютеры. Все, что им нужно сделать, это арендовать нужные им машины на время использования и заплатить за это. Эта тенденция привела к большому количеству экспериментов, которые в противном случае не состоялись бы, например, большие объемы данных можно было обрабатывать в кластерах больших данных/Hadoop, которые можно было просто арендовать.

За последние десять лет вычислительные алгоритмы, такие как Random Forests и Deep Neural Networks, стали податливыми в вычислительном отношении благодаря как более новым алгоритмам, так и более высокой вычислительной мощности. Это позволило решить проблемы, ранее считавшиеся огромными, в короткие сроки.

Последней частью головоломки, и, вероятно, самой важной, был тот факт, что все эти достижения в области вычислительной техники и науки о данных стали доступны академическим кругам, фрилансерам и компаниям, малым и большим, бесплатно — через надежное программное обеспечение с открытым исходным кодом. Многие компании, такие как Google и Microsoft, теперь регулярно выпускают инструменты машинного обучения с открытым исходным кодом. Для сравнения, такие инструменты (например, SAS) были недоступны для всех, кроме крупных компаний, из-за чрезвычайно высокой стоимости программного обеспечения, порядка тысяч долларов за лицензию на рабочее место.

По сути, вышеупомянутые разработки резко снизили затраты компаний на разработку программных приложений. Небольшие команды и предприятия теперь могут получить доступ к тем же или лучшим инструментам, что и крупные компании-разработчики программного обеспечения, и это привело к значительной волне инноваций.

Итак, что может наука о данных?

Вышеупомянутые разработки в совокупности создали большие возможности для науки о данных. Ведущие команды специалистов по данным в компаниях продемонстрировали, что:

  1. У предприятий есть множество проблем, которые можно решить дешево и масштабно с помощью Data Science. Корпоративные приложения не всегда являются решением и во многих случаях могут стать частью проблемы, а не решением.
  2. Специализированная команда неспециалистов, также известных как «специалисты по данным», может решать широкий круг проблем внутри компании, тщательно изучая горы данных, которые уже существуют.
  3. Решать такие проблемы своими силами гораздо выгоднее, чем просто отдавать этот процесс на аутсорсинг. Процесс так же ценен, как и его результаты, прежде всего потому, что он порождает и усиливает инновации внутри компании.
  4. Инвестиции в технологии, необходимые для начала этого пути, намного меньше, чем когда-либо в истории технологий. Инструменты становятся быстрее, лучше и дешевле с каждым днем

Исчерпывающий список приложений науки о данных выходит за рамки этой статьи. Однако важно отметить, что наука о данных находит многочисленные применения во всех областях бизнеса, например, в маркетинге, производстве, CRM, планировании спроса, финансах и т. д., и решает задачи, в которых используются не только числовые данные, но также изображения, текст, голос. и видеоданные. Приложения ограничены только сферой деятельности соответствующего бизнеса.

Забрать

Ниже представлена ​​схема отраслевой исследовательской группы Gartner, которая объясняет ряд вопросов, на которые может ответить наука о данных в форме модели зрелости. Для компаний крайне важно понимать, что ваша команда специалистов по обработке и анализу данных может использовать горы данных, хранящихся в четырех стенах вашей компании, и даже использовать внешние данные, чтобы отвечать на важные вопросы для вашего бизнеса и развивать новые возможности практически во всех сферах вашей деятельности. бизнес. Многие компании осознали этот тектонический сдвиг в отрасли и требуют как минимум осведомленности о науке о данных в каждом отделе и на каждом уровне своего бизнеса.

В нашем следующем посте «Наука о данных — возможности для предприятий» мы продолжим эту тему и обсудим, почему предприятиям так трудно осваивать науку о данных.

Автор: Анант Кришнамурти

Пожалуйста, напишите нам со своими мнениями и комментариями. Если вы компания/стартап, ищущий помощь в области машинного обучения, мы будем более чем рады помочь. Просто напишите нам, и мы свяжемся с вами.