НАУКА ДАННЫХ

Остерегайтесь сдвигов данных

Различия между данными обучения и данными после внедрения могут привести к снижению производительности модели.

Модели прогнозирования, построенные с помощью алгоритмов машинного обучения, часто не работают в реальном мире.

Даже искусственный интеллект, созданный некоторыми ведущими мировыми экспертами, часто с трудом может воспроизвести многообещающие характеристики за пределами лаборатории. Ярким примером являются системы AI Health Care, разработанные в Google.

Приложения AI предназначены для помощи в диагностике. От обследований на рак до выявления заболеваний и профилирования рисков.

Приложения были очень успешными при обучении и оценке в лабораторных условиях. Но при тестировании в реальном мире, например, в клиниках Таиланда, производительность не могла соответствовать лабораторным условиям.

В этом случае данные, предоставленные алгоритму, были более низкого качества, чем данные обучения. Но к одной и той же проблеме ведет множество различных основных причин: сдвиг данных.

Сдвиги данных - это термин, используемый для описания изменения в распределении данных. Это изменение может произойти по многим причинам. Однако их можно свести к трем основным механизмам.

  1. Причины, приводящие к изменениям целевой переменной (которые не связаны с используемыми независимыми переменными).
  2. Причины, приводящие к изменению независимых переменных.
  3. Причины, которые изменяют лежащие в основе отношения и / или закономерности между целевой переменной и пояснениями.

Каждый из этих механизмов более подробно рассматривается ниже.

Понимание причин и последствий сдвигов данных является предпосылкой для решения проблем, связанных с худшими, чем ожидалось, результатами моделей (снижение производительности модели).

Зонирование в

Представьте себе это.

Вы хотите реализовать модель прогнозирования. Процесс сделать это ясен.

Во-первых, утомительное и тщательное изучение данных, доступных для обучения и проверки. Затем началась разработка множества различных моделей машинного обучения.

И, наконец, правильный выбор и реализация модели, которая хорошо работает в различных процедурах валидации.

Что может пойти не так?

Ну много чего. И одна из наиболее распространенных проблем для моделей AI и ML - это сдвиги в базовом распределении данных. Независимо от того, используются ли довольно простые регрессионные модели или сложные алгоритмы, такие как глубокие нейронные сети, сдвиги данных являются частой причиной головной боли среди разработчиков моделей.

1. Априорный сдвиг вероятности

Первый механизм из перечисленных выше формально известен как априорный вероятностный сдвиг.

В нем описана ситуация, когда распределение целевой переменной изменяется, а распределение независимых переменных (или входных переменных) - нет.

Это может быть связано с изменением состояния. Предположим, вы хотели спрогнозировать, сколько из определенных аптек рецептурных лекарств будет продаваться, чтобы обеспечить эффективное управление поставками.

У вас есть модель, которая учитывает количество людей, живущих поблизости, заболеваемость этим лекарством, цену лекарства и альтернативных лекарств, а также расстояние между аптеками.

Но происходит что-то непредвиденное, что вызывает изменение спроса на указанный препарат, несмотря на отсутствие изменений в переменных, объясняющих спрос.

Быстрый тест на запах - чтобы проверить, следует ли тратить дополнительные ресурсы на обнаружение потенциального предшествующего вероятностного сдвига - заключается в простом построении гистограмм 1) набора данных, используемого для обучения и проверки, и 2) нового набора данных, с которым модель связана. отстает.

Если гистограммы выглядят примерно так, как показано ниже, наш тест на запах предполагает сдвиг.

2. Ковариативный сдвиг.

Второй из перечисленных механизмов, изменения (распределения!) Объясняющих переменных (или ковариат, или входных переменных) - это ковариативный сдвиг.

В приведенном выше примере ковариационный сдвиг произойдет, если наблюдается значительный рост населения, проживающего рядом с аптеками, но ни одна из них (по какой-то причине) не имеет условий, требующих от них требовать указанное лекарство.

Способ проверки ковариатных сдвигов - смешать новые данные (за период, когда модель реализована, но работает плохо) с данными обучения.

Выбор случайных выборок в качестве тестовых данных и использование оставшихся данных для обучения модели предсказанию того, происходит ли наблюдение из исходных обучающих данных или из новых данных.

Если исходные данные обучения и новые данные неотличимы друг от друга, маловероятно, что у вас есть ковариативный сдвиг.

Если они различимы, вам следует переучить вашу модель.

3. Дрейф концепций

Третий из перечисленных механизмов - изменения во взаимосвязи между целевой переменной и независимыми переменными - часто называют дрейфом концепции.

Это может произойти по нескольким причинам. К ним относятся выбор (детерминированное удаление наблюдений), циклические вариации (которые не обнаруживаются) и нестационарность.

Смещение концепций - обычное дело во временных рядах. Как с этим справиться, зависит от конкретной проблемы и иногда ограничивается доступными данными.

Хорошее введение в этот вопрос можно найти здесь.

Выводы

Сдвиги данных - распространенная проблема в различных реализациях методов машинного обучения. От распознавания изображений до прогнозного моделирования.

Насколько сложно их обнаружить и решить, зависит от случая.

Но очень важно думать о них, тестировать их и либо справляться с ними, либо осознавать, как они создают проблемы для правильного функционирования данной модели или алгоритма.

Итак, уважаемые специалисты по данным, остерегайтесь сдвигов в данных.