Выбор правильных бизнес-задач для ML

Мэтт Коннор, старший менеджер по продукту, C3 AI Ex Machina

В то время как алгоритмы машинного обучения могут решить огромное количество бизнес-задач, многие компании пытаются определить, где лучше всего применить свои ограниченные ресурсы для решений машинного обучения. К счастью, проблемы, которые наиболее эффективно решаются с помощью машинного обучения, имеют несколько общих ключевых характеристик.

Например, в сфере финансовых услуг обнаружение мошенничества является многообещающей областью для машинного обучения, поскольку компании располагают информацией о транзакциях с тысячами точек данных, а мошеннические транзакции имеют несколько общих ключевых индикаторов. С другой стороны, прогнозирование фондового рынка не является убедительным вариантом использования машинного обучения; несмотря на обилие доступных данных, рыночные цены подвержены почти неограниченному количеству непредсказуемых факторов. Телекоммуникационная компания может быть заинтересована в использовании машинного обучения для прогнозирования оттока клиентов. Использование модели для выявления клиентов с высоким риском оттока очень эффективно, и аналитики могут также ориентироваться на ценных клиентов с риском оттока, чтобы максимизировать прибыль. В здравоохранении представлен широкий спектр вариантов использования машинного обучения, одним из которых является выявление неисправных датчиков. Варианты использования, такие как диагностика пациентов и создание планов лечения, являются многообещающими областями развития машинного обучения, но алгоритмы не заменят суждения медицинских работников в ближайшее время. Одним из самых мощных приложений машинного обучения является профилактическое обслуживание. Возьмем нефтегазовую отрасль, где эффективность и ценность сильно зависят от надежности активов. Способность предсказывать сбои активов и принимать меры до того, как они произойдут, — отличная возможность использовать машинное обучение, поскольку исторические данные об обслуживании оборудования и его отказах часто легко доступны.

Бизнес-задачи, лучше всего подходящие для решений машинного обучения, схожи по своей природе; большинство из них стремятся ответить на целенаправленный конкретный вопрос, ответ на который можно найти в обилии исторических данных, и потенциально могут повысить эффективность и добавить ценность для компании. Два основных метода машинного обучения — контролируемое и неконтролируемое обучение. Обучение с учителем требует, чтобы обучающие данные были помечены в соответствии с целевой переменной, а модель обучения с учителем учится предсказывать цель на невидимых данных. Обучение без учителя не требует размеченных обучающих данных и не выводит прогноз; вместо этого алгоритмы неконтролируемого обучения извлекают шаблоны и другие полезные сведения из набора данных.

Классы машинного обучения

Контролируемое обучение

По своей сути обучение с учителем — это метод использования исторических данных для ответа на вопрос о будущем поведении, например, «откажет ли эта часть оборудования?» или «уйдет ли этот клиент из компании?». Модель контролируемого обучения учится на обучающих данных с целевой переменной и прогнозирует переменную для новых точек данных. Обучение под наблюдением относится к одной из четырех категорий: бинарная классификация, многоклассовая классификация, многоуровневая классификация и регрессия. Каждый класс задач машинного обучения можно решить с помощью нескольких алгоритмов машинного обучения, но один алгоритм не подходит для каждого класса машинного обучения. В следующем посте из этой серии алгоритмы машинного обучения будут рассмотрены более подробно и как решить, какой алгоритм использовать.

Двоичная классификация. При двоичной классификации данные сортируются по одной из двух категорий, поэтому каждый ввод возвращает либо «да», либо «нет». Логистическая регрессия, деревья решений и алгоритмы наивного Байеса могут решить проблемы бинарной классификации.

Для решения проблемы прогнозирования оттока клиентов в телекоммуникациях модель бинарной классификации будет использовать исторические данные с профилями клиентов и информацию о том, какие клиенты ушли, чтобы предсказать, уйдет ли текущий клиент.

Многоклассовая классификация. Многоклассовая классификация усложняется наличием более двух выходных меток; вместо вывода «да» или «нет» модель должна предсказать одну из нескольких категорий вывода для каждого входного значения. Наивные байесовские алгоритмы и алгоритмы дерева решений лучше подходят для многоклассовой классификации, тогда как логистическая регрессия менее эффективна.

Например, предприятие розничной торговли может использовать многоклассовую классификацию, чтобы предсказать, будет ли покупатель платить больше, меньше или меньше.

Регрессия. Регрессия — это метод прогнозирования непрерывного (в отличие от категорического) значения с учетом особенностей исторических данных. Регрессионная модель может предсказать, как цена изменится с течением времени или количество дней до выхода из строя оборудования. Модель регрессии предсказывает числовое значение зависимой переменной на основе ряда независимых переменных или предикторов. Линейная регрессия — простейший алгоритм решения задач регрессии. Методы регуляризации могут повысить точность моделей линейной регрессии за счет снижения риска переобучения модели. (Переобученная модель так тщательно обучается на обучающих данных, что она недостаточно хорошо обобщается, чтобы делать точные прогнозы на невидимых данных.) Деревья решений популярны для использования в более сложных задачах регрессии.

Для нефтегазовой компании, стремящейся увеличить время безотказной работы за счет профилактического обслуживания, регрессионная модель может предсказать время, оставшееся до того, как часть оборудования может выйти из строя, что помогает ремонтным бригадам расставить приоритеты в отношении наиболее срочных ремонтных работ и завершить их до выхода из строя.

Неконтролируемое обучение: кластеризация

Кластеризация помогает аналитикам распознавать закономерности, которые могут объяснить определенные явления, выявлять выбросы в наборе данных и принимать решения на основе демографических данных клиентов. Модель кластеризации группирует схожие данные на основе ряда признаков, и аналитики могут получить представление о каждой группе. Кластеризация — это мощный инструмент для обнаружения аномалий — рассмотрим пример использования датчиков в здравоохранении. Кластеризация данных от одного типа датчиков помогает определить, какие датчики работают со сбоями, поскольку все они могут демонстрировать схожий набор аномального поведения, которое трудно или невозможно идентифицировать, изучая данные от одного датчика.

Неконтролируемое обучение: уменьшение размерности

Уменьшение размерности может значительно улучшить производительность других моделей. Когда набор данных имеет много функций, становится необходимым больший объем данных для обучения, чтобы точно отразить все возможные комбинации функций и результатов; в противном случае модель вряд ли будет хорошо работать с невидимыми данными. Уменьшение размерности — это процесс уменьшения количества признаков в наборе данных путем удаления нерелевантных признаков (выбор признаков) или объединения в меньшее количество более мощных признаков (извлечение признаков). Хотя уменьшение размерности вряд ли можно использовать изолированно, оно может значительно повысить эффективность других моделей, обученных с помощью набора данных. Снижение размерности особенно важно в тех случаях, когда важна интерпретируемость модели или способность объяснить, почему модель приняла такое решение. Проблема обнаружения мошенничества — убедительный пример использования уменьшения размерности в сочетании с алгоритмом кластеризации или классификации; когда модель идентифицирует транзакцию как мошенническую, очень важно, чтобы ее причина была ясной и объяснимой. Использование алгоритма выбора признаков для устранения признаков, которые напрямую не влияют на вероятность мошенничества, позволяет аналитикам легко определить, почему другой алгоритм определил транзакцию как мошенническую.