В нашей CompassRed Data Lab от имени наших клиентов мы всегда ищем лучший способ прогнозирования с помощью наших алгоритмов, включая машинное обучение (ML) и искусственный интеллект (AI). По мере того, как данные становятся все более распространенными и сложными, а системы, которые управляют данными, становятся более гибкими, процесс и методология становятся все более важными (при условии, что они гибкие).

Начните с данных, закончите развертыванием

Обе стороны фактического процесса прогнозирования, конечно же, включают (1) идентификацию и прием данных (то, что мы любим называть «обработкой данных») и (2) развертывание результатов. Обработка данных, вероятно, технически самый простой шаг, но самый сложный в действительности. По некоторым данным, это может составлять до 80% работы при построении и реализации процесса предиктивной аналитики. Развертывание — это процесс превращения результатов в пригодные для использования, что может быть выполнено с помощью визуальных средств (например, информационных панелей), триггеров, API или любого другого механизма. Подробнее об этом в следующих постах.

Разработка модели

Когда дело доходит до реальных прогнозов (когда у нас есть данные) — у нас есть процесс из пяти шагов, который мы постоянно совершенствуем, чтобы получить прогнозы и результаты, которые нам нужны:

Шаг 1. Определите единицу анализа

Обычно «единица анализа» структурирована как запись в базе данных и обычно является «транзакцией» или «клиентом». Записи транзакций часто идеальны, поскольку их можно агрегировать с записями уровня клиента. Примерами транзакций являются «продажи», «регистрации», «совещания», «наем на работу» и т. д. Клиент может быть «покупателем», «потенциальным клиентом» или «лицом (лицами)». Когда мы работаем над анализом временных рядов, единицей анализа является период времени (например, день, неделя, месяц или год).

Шаг 2. Определите целевые поля

Целевые поля обычно представляют собой результаты, представляющие интерес для организации. Они должны включать как минимум два или более значения (например, продажа или отсутствие продажи, добровольное прекращение, принудительное прекращение или отсутствие прекращения). Это означает, что вы не можете использовать данные, в которых все испытуемые имели одинаковый результат (например, все откликнулись на предложение о продаже).

Шаг 3. Определите исходные предикторы

При определении исходных предикторов мы определяем все поля, которые потенциально могут повлиять на целевые поля. Часто проблема заключается в том, что эти поля хранятся в разных таблицах и в разных частях организации. Как только эти поля-предикторы определены, следующей задачей часто является доступ к ним и объединение их в единую таблицу, чтобы каждая запись включала поля цели и поля-предикторы (отсюда и термин «обработка данных»). В общем, не ко всем потенциальным предикторам нужно обращаться немедленно; больше может быть легко добавлено позже.

Шаг 4) Создание моделей

Здесь начинается самое интересное. «Модели» — это алгоритмы, фиксирующие исторические закономерности в данных. Большинство моделей используются для (а) ранжирования предикторов по их влиянию на целевое поле или (б) прогнозирования новых записей (так называемая «оценка»). Сегодня наиболее широко используемыми программами для создания этих алгоритмов являются IBM SPSS, R и SAS, поскольку они включают множество различных процедур моделирования. Из-за затрат — R обычно используется чаще всего, поскольку он является открытым. IBM SPSS используется чаще всего, а SAS широко известен как самый надежный (и дорогой!).

Шаг 5. Тестирование и изменение моделей

Наконец, разработанные модели проверяются на точность прогнозирования на исторических данных. На этом этапе случайные выборки исторических данных можно рассматривать как новые случаи, чтобы проверить способность модели точно предсказывать их результаты. Все модели имеют настройки, которые можно изменить для повышения производительности модели.

Улучшение и расширение процесса прогнозной аналитики

Нет такой модели, которую нельзя было бы улучшить. Вот почему прогнозная аналитика (или то, что мы называем «прогнозным интеллектом») извлекает выгоду, как никто другой, из машинного обучения, искусственного интеллекта и глубокого обучения. Доступ к большему количеству полей предикторов повысит точность, хотя стоимость доступа к этим полям должна быть сопоставлена ​​с их вкладом в эту точность предсказания. В процесс можно добавить дополнительные целевые поля, каждое со своим набором предикторов и моделей.

Прогнозная аналитика существует уже много лет, но новые достижения в методах и обработке данных выдвинули ее на передний план. Недавно спрашивая одного коллегу в ходе обсуждения, сравнивающего популярность ИИ и блокчейна и находится ли ИИ на кривой ажиотажа, он ответил, что блокчейн — это новая концепция и технология, ищущая проблему, но искусственный интеллект, прогнозная аналитика и Машинное обучение используется на практике уже много лет. Из-за влияния закона Мура на эти методы — появляются новые приложения этих технологий, которые меняют жизнь (или игру). Кто-нибудь за игрой в покер?