В эпоху, когда передовая аналитика, искусственный интеллект и наука о данных занимают центральное место в обсуждениях на совете директоров, лица, принимающие бизнес-решения, охотятся за технологиями, предлагающими преимущество, которое подтвердит их решения, заблаговременно выявит риски, и обещают четкий путь к росту.

Ни одна отрасль не устояла перед коммерческими предложениями и слайдами, продвигающими оптимизацию, искусственный интеллект и машинное обучение, с обещаниями беспрецедентного повышения эффективности, бесконечной прибыли и принятия решений без риска. Но неужели все это лишь мираж? Недостижимая цель? Или сегодня компании действительно могут получить доступ к самым передовым технологиям, которые помогут им?

В этой статье мы хотим пересмотреть континуум науки о данных в широком смысле и контекстуализировать область машинного обучения как один (из многих) полезных инструментов для поддержки пути к принятию решений на основе данных.

Для команды Predictive Analytics Group мы первыми согласились с тем, что AI и ML имеют и будут продолжать предоставлять предприятиям инструменты и платформы, необходимые для решения некоторых из самых сложных проблем, с которыми они сталкиваются в своем бизнесе, и помогать им дать ответы на вопросы, которые они даже не думали задавать еще. Но обратите внимание на ключевые слова инструменты и фреймворки. Мы считаем, что любой бизнес-лидер, который собирается приступить к всеобъемлющей стратегии обработки данных, должен на секунду обуздать свой энтузиазм и начать с основ.

Так что же такое наука о данных?

Наука о данных означает разные вещи для разных людей, но, проще говоря, она описывает область, которая применяет комбинацию данных, математики и предметных знаний для решения реальных проблем.

Ученый по обработке и анализу данных обладает этими навыками. Мэтью Мэйо, специалист по данным и заместитель редактора KDNuggets, утверждает:

«Когда я слышу термин специалист по данным, я обычно думаю о единороге и обо всем, что с ним связано, а затем вспоминаю, что их не существует, и что настоящие специалисты по данным играют много разных ролей в организаций с разным уровнем деловых, технических, межличностных, коммуникативных и предметных навыков.”​

… и машинное обучение?

Для непосвященных машинное обучение — это общий термин, описывающий набор алгоритмов и сред, которые предназначены для автоматического «обучения» и улучшения на основе опыта, без специального программирования для этого. Проще говоря, алгоритм машинного обучения делает это, беря некоторые данные, узнавая что-то о них (например, взаимосвязь между доходом и ценой на жилье) и делая прогноз относительно этой взаимосвязи. Мы отложим подробное изучение типов алгоритмов обучения и их приложений на другой раз, но, проще говоря, машинное обучение может помочь нам в следующем:

  • Обучение классификации. Мы пытаемся предсказать класс или категорию, к которой может принадлежать точка данных.Например, напоминает ли объект на этом изображении кошку или собаку?
  • Регрессионное обучение — мы пытаемся изучить и количественно оценить взаимосвязь между одной переменной и одной или многими другими. Например, какова связь между ценами на авиабилеты и ценами на нефть?

Достижения в области машинного обучения проложили путь к величайшим инновациям нашего времени, от беспилотных автомобилей до автоматизированного видеонаблюдения, и помогли открыть новые двери в медицине и фармацевтической промышленности.

Звучит все это очень круто, но даже в 2020 году кажется, что все хотят построить доступ к ИИ и машинному обучению, но очень мало информации о том, с чего начать.

Руководство PAG Наука о данных для реального мира

В Predictive Analytics Group мы рекомендуем оценить ключевые показатели эффективности, данные, неэффективность, сильные стороны, размер прибыли вашей организации — любые показатели, которые действительно важны для организации, изнутри наружу, чтобы определить своего рода базовый уровень. работать против. Это то, что мы могли бы назвать шагом 0, где мы просто хотим установить статус-кво в количественном выражении, где это возможно, и вернуться к нему в будущем, когда будут реализованы решения для прогнозирования и оптимизации.

Отсюда мы следуем простому процессу из шести шагов, чтобы помочь нашим клиентам в их стратегии обработки данных.

Важно отметить, что, по крайней мере, на ранних этапах порядок шагов важен, поскольку каждый шаг сильно зависит от результата предыдущего шага.

Со временем порядок может перестать иметь такое большое значение, потому что одной из ключевых целей реализации стратегии обработки данных является разработка автоматизированного цикла обратной связи с информацией. Именно тогда в игру вступает действительно творческая сторона науки о данных, облегчающая переход от Прогнозной аналитики к Предписывающей аналитике. А пока попробуйте выполнить следующий процесс:

  1. Установление проверяемых гипотез — т.е. задавайте правильные вопросы о вашем бизнесе или организации. Например, компания с бизнес-моделью, основанной на подписке, сталкивается с неуклонным ростом числа отмен подписок. Они могут спросить себя: "Какие факторы приводят к тому, что наши клиенты теряют интерес к нашему продукту, и сколько времени требуется, чтобы они ушли от нас?". На практике мы обнаружили, что многие лица, принимающие решения, не останавливаются, чтобы спросить себя, почему они хотят создать эту возможность в этой организации, и полностью пропускают этот шаг.
  2. Сбор данных (настоящие случайные выборки). Основываясь на гипотезах, которые вы изложили на шаге 1, какие данные вам потребуются для их проверки? В примере, описанном на шаге 1, какая информация о наших клиентах у нас есть, чтобы помочь нам ответить на этот вопрос?
  3. Изучение основных свойств данных. Проведите то, что мы называем исследовательским анализом, чтобы узнать больше о данных, собранных на шаге 2. Это может происходить во многих формах, и любой хороший аналитический пакет помочь вам создать диаграммы визуализации, чтобы лучше понять ваши данные. В качестве другого примера предположим, что вы генеральный директор розничной сети и хотите узнать, есть ли связь между посещаемостью магазина и хорошей погодой. Ну, если бы мы получили правильные данные, мы могли бы использовать простую диаграмму рассеяния, чтобы увидеть, как выглядит взаимосвязь между погодой и пешеходным движением.
  4. Подгонка подходящих моделей/алгоритмов к данным. Поскольку благодаря шагу 3 мы знаем о наших данных немного больше, теперь мы можем поместить данные в ряд статистических моделей и моделей машинного обучения, чтобы увидеть, может помочь нам в прогнозировании отношений.
  5. Построение осмысленных интерпретаций (с использованием надежной диагностики). Итак, мы разработали и настроили надежную модель на шаге 4, но не «подгоняет» ли модель данные? При каких обстоятельствах модель падает? Какова общая производительность модели? В случае с нашим примером из шага 3, какие переменные положительно влияют на посещаемость икакие переменные отрицательно влияют? Исследование модели так же важно, как и изучение самих данных, если мы хотим доверять нашей модели при принятии решений в будущем.
  6. Отчет о результатах исследования/развертывание решения. Мы пришли к прототипу модели, которому мы достаточно доверяем, чтобы направлять часть процесса принятия решений. Если подойдет простой отчет, то весь проект, как и любой научный эксперимент, необходимо задокументировать для дальнейшего использования. Если вы хотите развернуть это решение в «реальном мире», чтобы использовать модель снова и снова, вам нужна инфраструктура для этого.

Это тот же процесс, который мы использовали для широкого спектра вариантов использования, от прогнозирования спроса на экстренные вызовы, оптимизации реестра, моделирования розничных запасов и многих других.

Примечание к пункту № 4 — именно с этого вы должны начать с машинного обучения (…то есть, если машинное обучение является подходящим инструментом для работы). Мы обнаружили, что Когда компании начинают свое путешествие по науке о данных, они настолько увлечены машинным обучением и искусственным интеллектом, что погружаются прямо к шагу 4, не обращая внимания на первые три!

Проблема с этим подходом многогранна, но мы выбрали несколько, чтобы дать некоторый контекст:

  • Машинное обучение может оказаться неподходящим инструментом для этой работы. Некоторые алгоритмы машинного обучения работают лучше или хуже в разных наборах данных и при разных условиях задачи. Например, искусственная нейронная сеть может быть намного лучше в некоторых сценариях, но в других случаях вы можете отказаться от использования простой линейной регрессии. Кроме того, доверие к результатам модели машинного обучения без тщательного рассмотрения входных данных модели может полностью сбить ваш анализ с пути, даже не осознавая этого.
  • Пропустив шаг 1, вы можете даже задать не тот вопрос! Конечно, вы построили модель повышения градиента с точностью 92 %, но поможет ли она вам подтвердить или опровергнуть вашу первоначальную гипотезу? Хотя существует область машинного обучения под названием Обучение без учителя, которая делает именно это (которую мы рассмотрим в следующей статье), в начале пути к науке о данных вы хотите иметь возможность решать сложные проблемы. с ощутимым пониманием, и быстро. Лучший способ сделать это — составить несколько тщательно продуманных гипотез о вашем бизнесе, ваших клиентах или операционных процессах и попытаться дать на них явные ответы.
  • Некоторые важные сведения о ваших данных можно получить на шаге 3.Как и в предыдущем примере, вы работаете в сфере розничной торговли и уверены, что «чем жарче погода, тем у нас больше продаж». Что ж, мы могли бы легко смоделировать это с помощью правильных данных. Но скажем, что это утверждение верно наполовину, и когда температура достигает 30 °C / 86 °F, пешеходы начинают падать. Мы могли бы изобразить данные на диаграмме рассеяния и определить эту нелинейную зависимость перед моделированием, мы могли бы учитывать это, чтобы генерировать более надежные прогнозы. Это можно сделать различными способами (например, с помощью сплайнов в случае статистического моделирования или простой разработки признаков), и это могло бы помочь нам создать более интеллектуальную обучающуюся машину.
  • Стратегии Data Science с чрезмерным упором на шаг 4, как правило, становятся слишком дорогими, слишком агрессивными для организации и рискуют полностью отклониться от первоначальной миссии стратегии. По нашему опыту, продвижение организации по пути, полностью основанному на данных, – это повторяющийся процесс, который начинается с постановки правильных вопросов и заканчивается получением более полных сведений и информации, помогающих принимать решения в долгосрочной перспективе. срок.

Является ли машинное обучение универсальным решением всех организационных проблем и задач?

Не совсем так, но как часть тщательно продуманной стратегии обработки данных он может стать неотъемлемым инструментом, используемым для создания осязаемых, воспроизводимых решений некоторых из самых серьезных количественных задач, с которыми вы сталкиваетесь в своей организации. Все сводится к тому, чтобы уметь задавать правильные вопросы о вашей организации; объективно исследовать ваши данные; и применять правильные инструменты, чтобы помочь более широкому процессу принятия решений.

Некоторые ключевые выводы:

  • Начните с простого и в первую очередь срывайте самые простые плоды. Не думайте, что для этого вам нужно ML или Deep Learning для этого. Просто начните с нескольких основных вопросов, которые вы хотите задать о своем бизнесе, своих клиентах, процессах или персонале, и подумайте, как вы могли бы ответить на них с помощью данных. Машинное обучение может помочь, но это только одна часть головоломки аналитики.
  • Поэтапно расширяйте возможности обработки данных. Для создания полноценной, полностью автоматизированной системы обработки данных внутри компании требуется время (и это может быть довольно дорого). Держите стратегию сфокусированной и ориентированной на результат, и наращивайте этот импульс по ходу дела.
  • Не стоит недооценивать силу исследовательского анализа. Простой анализ данных и визуализация играют огромную роль в континууме науки о данных, и результат вашего анализа может создать или разрушить модель прогнозирования. По сравнению с машинами мы, люди, все еще довольно хорошо распознаем образы, поэтому визуализация данных может иметь большое значение для выявления взаимосвязей и понимания.

Predictive Analytics Group с гордостью предлагает бесплатные пробные версии своей инновационной платформы обработки данных AutoStat®.

Благодаря AutoStat® бизнес-лидеры наконец-то могут решить проблемы, с которыми они сталкиваются в своих организациях, с помощью количественных решений и доступа к передовым возможностям обработки данных без долгосрочной окупаемости инвестиций.

Создайте прогнозное предприятие быстро и масштабно и интегрируйте весь континуум обработки данных с единой платформой AutoStat®.