В соавторстве с Дебошмитой Сен. Мнения, выраженные в этой статье, являются личными.

Модели машинного обучения - это черные ящики. Хотя эти модели, основанные на их дизайне, могут легко определять сложные нелинейные тенденции в данных, они демонстрируют плохую интерпретацию результатов. Однако для создания эффективной стратегии, основанной на данных, такие интерпретации становятся абсолютно необходимыми. Например, в случае моделей отклика и конверсии для маркетинга важные бизнес-решения и предложения могут быть развернуты, если мы знаем, что способствует более высокому отклику и вероятности конверсии.

В мире машинного обучения интерпретируемость машинного обучения (MLI) является активной областью исследований и становится все более популярной. Большинство платформ для анализа данных сегодня встраивают интерпретируемость в конвейер обработки данных. Однако MLI - это не только модели белого бокса. Он может отображать отношения, которые могут помочь специалисту по обработке данных улучшить саму модель. Немногочисленные примеры этого можно увидеть в объяснениях взаимодействия, обнаружении многомерных выбросов среди прочего. Эти шаблоны могут помочь в дальнейшей разработке функций или создании другого ансамбля моделей. В этой статье мы подробно рассмотрим некоторые варианты использования MLI в конвейер для улучшения моделей машинного обучения.

Необходимость методов MLI по сравнению с традиционными мерами важности функций

Типичный конвейер разработки машинного обучения будет включать определение проблемы, разработку структуры модели, сбор данных, исследовательский анализ данных, разработку функций, сокращение функций, моделирование и проверку. Эти шаги ни в коем случае не являются линейными по своей природе, и между ними существует постоянная петля обратной связи. Модель улучшается с каждой последующей итерацией до такой степени, что предельная полезность улучшения (измеряемая либо с точки зрения компромисса смещения отклонения, либо с точки зрения обучения, основанного на затратах) не так высока.

Для построения первоначальной гипотезы аналитики тратят много времени на исследовательский анализ данных, чтобы обеспечить точную визуализацию данных и экспериментировать с различными способами создания гипотезы. Это важно не только для разработки новых функций, но и для создания истории данных. Тем не менее, большинство этапов EDA проистекает из парадигмы статистического обучения, при этом анализ можно разделить на следующие три сегмента:

· Универсальный анализ: анализ распределения одной переменной за раз.

· Двунаправленность с целью: анализ каждого признака / предиктора с целевыми переменными.

· Многомерный анализ между предикторами: корреляционный анализ / анализ главных компонентов, в первую очередь ориентированный на выявление взаимосвязей между группой предикторов.

Хотя эти анализы весьма полезны для создания гипотез, у них есть свой набор ограничений. В большинстве случаев влияние предикторов на цель при наличии корреляции часто игнорируется или, в лучшем случае, выполняется вручную. Более того, идентификация микрокластеров в данных (многомерные выбросы) не совсем улавливается с помощью этого анализа. Конечно, существуют такие методы, как самоорганизующиеся карты (SOM), t-SNE и т. Д., Которые могут помочь в идентификации этих кластеров. Но эти методы часто кажутся непрактичными, особенно для больших наборов данных.

Методы MLI не зависят от модели, т. Е. Развертываются после разработки модели. Следовательно, эти методы полезны для выявления закономерностей, которые модель машинного обучения смогла обнаружить. Поскольку модель будет иметь множество переменных, которые могут быть коррелированы, интерпретации также будут включать эти корреляции. Хотя некоторые могут возразить, что эти интерпретации не являются показателями «истинной важности» (поскольку эффекты взаимодействия не контролируются), все же есть смысл в создании значимых интерпретаций.

Некоторые из вариантов использования MLI резюмируются следующим образом:

· Выявление важных функций из списка возможных функций

· Выявление многомерных выбросов из данных. В одном варианте использования мы обнаружили, что наличие ансамбля модели машинного обучения и модели обнаружения аномалий может повысить точность на 2–3%.

· P анализ ошибок выполнения в тех случаях, когда модель не может точно классифицировать

Некоторые из последующих стратегий могут сделать модель экономичной (сохранение на этапе реализации). Это создает ансамблевую технику с детектором выбросов вместе с моделью или поиском первопричины неправильной классификации. Поэтому для улучшения модели могут быть выполнены дальнейшие итерации.

На диаграмме ниже представлен предлагаемый конвейер разработки модели машинного обучения:

Подводя итог - нет нужды говорить, что более высокая пригодность модели приведет к более точным интерпретациям. Следовательно, любые выводы следует делать после того, как вы будете уверены в точности соответствия модели, измеренной по стандартным параметрам, таким как MSE, AUC и т. Д. Интерпретации можно использовать в качестве дополнительного уровня для определения новых функций.

Следующий вопрос, на который нам нужно ответить, - как определить правильный метод MLI для решения проблемы? Как и в случае с большинством ответов на вопрос о данных, универсальной стратегии не существует. Далее мы попытаемся ответить на этот вопрос, исследуя различные варианты, доступные специалистам по обработке данных, и проводя их сравнительный анализ.