▮ Сдвиг данных

После развертывания вашей модели вам нужно будет поддерживать их, потому что данные постоянно меняются.
Итак, в этом посте я хотел бы поделиться тремя различными типами сдвига распределения данных, которые могут произойти, что может ухудшить вашу модель. производительность.

▮ Дрейф концепции

Это происходит, когда отношение каждого признака к целевой переменной изменяется.

Например, модель была обучена прогнозировать цены на жилье, и в то время большое значение имело расстояние от железнодорожного вокзала. Однако в последнее время из-за культуры работы на дому люди не так ценят близость, как раньше.

▮ Дрейф ковариации

Этот сдвиг данных происходит, когда распределение новых данных отклоняется от распределения исходных обучающих данных.

Например, модель была обучена распознавать кошек на изображениях белых кошек, но теперь модель должна делать прогнозы для коричневых кошек.

▮ Дрейф цели

Это происходит, когда ввод остается прежним, но изменяется целевая переменная. Другими словами, это противоположно дрейфу ковариатов.

Например, вы хотите обучить модель, которая определяет, является ли электронное письмо спамом или нет. Предположим, что 50 % обучающей выборки — это спам, но в рабочей среде только 10 % данных — это спам. Вместо того, чтобы воздействовать на входное распределение, это влияет на выходной прогноз.

Эта проблема возникает только в задачах Y → X и обычно ассоциируется с наивным Байесом.