Введение

Точно так же, как автомобили, данные дрейфуют. Однако, чтобы полностью понять дрейф данных, вы должны сначала понять дрейф модели. Дрейф модели — это изменение поведения модели. Эти изменения в первую очередь являются результатом двух факторов. Во-первых, это сдвиг концепции, также известный как дрейф концепции.
Когда статистические свойства целевой переменной (переменных), которые модель машинного обучения должна предсказывать, изменяются, происходит дрейф концепции. Предположим, вы построили модель для прогнозирования соотношения покупателей в магазине и онлайн-покупателей для супермаркета вашей компании, используя данные о клиентах с 2010 по 2016 год. Модель, если ее правильно обучить, будет давать точные результаты с 2017 по 2019 год, как раз перед COVID. Вспышка -19.
Начиная с 2020 года модель будет недостаточно точной из-за изменения контекста или концепции, в которой обучалась модель. Из-за глобальных ограничений на передвижение покупатели в 2020 году предпочли совершать покупки в Интернете, что привело к значительным изменениям в потребительском поведении. Это изменение концепции снизит производительность модели.
Второй фактор, способствующий дрейфу модели, — это дрейф данных. Дрейф данных возникает, когда изменяются входные данные, используемые для обучения и проверки модели. В следующих разделах вы поймете дрейф данных, увидев его причины, последствия и способы предотвращения.

Причины дрейфа данных

Дрейф данных может быть связан с различными факторами. Вот некоторые из них:
1. Низкая целостность данных. Поддержание точности и согласованности данных с течением времени на протяжении всего их жизненного цикла называется целостностью данных. Когда организации или команды не могут следить за данными, используемыми для операций машинного обучения, в данных возникают ошибки в результате манипуляций, выполняемых с данными различными командами вместе взятыми. Эти ошибки могут привести к отклонению данных от их первоначальной формы, что приведет к дрейфу.
2. Плохая инженерия данных. Инженерам данных поручено извлекать, преобразовывать и загружать данные из различных источников и успешно доставлять их инженерным группам. Это делается через конвейер данных. При неправильном выполнении это вызывает путаницу в данных, что приводит к сдвигу в свойствах данных. Эти сдвиги вызывают ошибки данных, которые влияют на производительность модели.
3. Ошибки при сборе данных. Иногда ошибки в данных можно отследить до точки сбора. Это может быть связано с рядом факторов, включая ошибку во внешнем интерфейсе формы или неработающий API, используемый для извлечения данных. Все эти факторы могут привести к дрейфу данных.

Эффект дрейфа данных

Основным эффектом дрейфа данных является снижение производительности или точности модели. Хотя это кажется инженерной проблемой, она также влияет на итоговую прибыль бизнеса. Искусственный интеллект скрипача объяснил в этом видео, как дрейф модели (за который может быть ответственным дрейф данных) обходится клиенту в 500 000 долларов всего за выходные. Другой клиент упомянул, что их команде по анализу данных потребовалось две недели, чтобы решить проблему смещения модели.
Хотя существует множество других примеров, факт остается фактом: смещение данных может иметь серьезные последствия для итоговой прибыли компании. В результате руководители и руководители должны сделать приоритетом устранение расхождения данных после его обнаружения.

Как решить дрейф данных

Чтобы решить проблему дрейфа данных внутри организации, требуются специалисты по данным, специалисты по машинному обучению, а также доступ к тем, кто разбирается в предметной области и может объяснить, что изменилось в данных, и почему. Как только это будет определено, инженерная группа может приступить к следующему:
1. Проверка конвейеров данных. Если конвейер данных сломан или имеет дефект, его проверка и исправление по мере необходимости поможет уменьшить уровень перекоса в ваших данных. Это имеет большое значение для устранения дрейфа данных и восстановления исходного распределения данных.
2. Надлежащая целостность данных. Хотя целостность данных напрямую не решает проблему дрейфа данных, она помогает предотвратить его и гарантирует, что данные, используемые командами, непротиворечивы и точны по всем направлениям.
3. Правильный сбор данных. Как обсуждалось ранее, искажение данных может произойти в момент их сбора. В результате обеспечение сбора правильных данных на каждом этапе процесса поможет уменьшить дрейф данных и восстановить их до нормального состояния. Ошибка может быть связана с вашим интерфейсным приложением, неправильным вводом данных или неработающим API, используемым для извлечения данных, и это лишь некоторые из возможных причин. Поиск и исправление точек, в которых были собраны неверные данные, сэкономит команде часы, потраченные на отладку или перестройку модели, а также деньги для организации.

Заключение

В этой статье представлен обзор дрейфа данных, его причин, последствий и решений. Хотя разрешение дрейфа данных важно, его предотвращение предпочтительнее. Для этого постоянно отслеживайте свои модели и/или данные на наличие необычных изменений и старайтесь понять, как они произошли и как их исправить. Чтобы узнать больше о дрейфе данных и связанных с ним концепциях, вы можете просмотреть:
Мои данные дрейфовали. Что дальше?" Как справляться со смещением модели машинного обучения в производственной среде.
Не позволяйте качеству вашей модели ухудшиться
Что такое целостность данных и как ее поддерживать?