От обнаружения к исправлению: как сохранить чистоту и надежность производственных данных

В Production ML качество данных — это все. Неважно, насколько хороши ваши модели или алгоритмы, если данные, которые вы им подаете, — мусор, вы получите мусорные результаты. Но как узнать, хорошие у вас данные или плохие? Это то, что мы собираемся исследовать в этой статье.

Мы начнем с обсуждения важности проверки данных и выявления проблем с данными в рабочей среде. В частности, мы сосредоточимся на двух типах проблем с данными: дрейф данных и концепций и перекос схемы и распределения. Эти проблемы может быть трудно обнаружить, но они могут оказать значительное влияние на точность и надежность ваших моделей машинного обучения.

К концу этой статьи у вас будет четкое представление о том, как концептуально обнаруживать проблемы с данными, включая дрейф и перекос, и какие шаги вы можете предпринять для их устранения. Итак, давайте начнем наш путь к освоению контроля качества данных в производстве!

Проблемы с данными
Дрейф
2.1. Дрейф данных
2.2. Концепция дрейфа
Перекос
3.1. Перекос схемы
3.2. Перекос распределения
Обнаружение проблем с данными
2.1. Обнаружение перекоса
2.2. Обнаружение дрейфа

Если вы хотите бесплатно изучать науку о данных и машинное обучение, ознакомьтесь со следующими ресурсами:

Бесплатные интерактивные дорожные карты для самостоятельного изучения науки о данных и машинного обучения. Начните здесь: https://aigents.co/learn/roadmaps/intro
Поисковая система для учебных ресурсов Data Science (БЕСПЛАТНО). Добавляйте в закладки свои любимые ресурсы, отмечайте статьи как завершенные и добавляйте учебные заметки. https://aigents.co/learn
Хотите изучить науку о данных с нуля при поддержке наставника и учебного сообщества? Присоединяйтесь к этому учебному кружку бесплатно: https://community.aigents.co/spaces/9010170/

Если вы хотите начать карьеру в области обработки данных и искусственного интеллекта и вам нужно знать, как это сделать. Я предлагаю сеансы наставничества по науке о данных и долгосрочное наставничество по карьере:

Долгосрочное наставничество: https://lnkd.in/dtdUYBrM
Менторские сессии: https://lnkd.in/dXeg3KPW

Присоединяйтесь к программе Среднее членство всего за 5 $, чтобы продолжать обучение без ограничений. Я получу небольшую часть вашего членского взноса, если вы бесплатно перейдете по следующей ссылке.

Присоединяйтесь к Medium по моей реферальной ссылке — Юссеф Хосни
Прочитайте все истории Юсефа Хосни (и тысяч других авторов на Medium). Ваш членский взнос напрямую поддерживает…youssefraafat57.medium.com

1. Проблемы с данными

Данные являются важнейшим элементом многих производственных процессов, от производства до здравоохранения и финансовых услуг. Однако качество и актуальность данных могут меняться со временем, что приводит к проблемам, которые могут повлиять на точность и эффективность этих процессов. Двумя наиболее важными проблемами данных в производстве являются дрейф и перекос.

Дрейф данных возникает, когда статистические свойства данных, используемых для построения модели или системы, со временем изменяются, что приводит к снижению производительности. Это может произойти из-за изменений в основной популяции, ошибок измерения или других факторов. Дрейф данных может привести к устареванию моделей и получению неточных результатов, что может привести к операционным и финансовым потерям.

С другой стороны, перекос данных возникает, когда данные, используемые для построения модели или системы, не являются репрезентативными для населения реального мира, для обслуживания которого они предназначены. Искаженные данные могут привести к предвзятым моделям и решениям, что может привести к несправедливому отношению к отдельным лицам или группам и негативно повлиять на результаты бизнеса.

И дрейф, и перекос являются критическими проблемами, которые необходимо решать в производстве, чтобы гарантировать точное и эффективное принятие решений. Такие методы, как непрерывный мониторинг, дополнение данных и тестирование разнообразия, могут помочь обнаружить и смягчить эти проблемы. Важно уделять первоочередное внимание качеству и точности данных в производстве, чтобы гарантировать, что процессы оптимизированы для достижения успеха.

2. Дрифт

В типичном конвейере машинного обучения у вас будут разные источники данных, которые концептуально одинаковы. У них одинаковый вектор признаков, но со временем они изменятся. Это означает, что производительность модели может либо быстро упасть из-за таких вещей, как сбой системы, либо со временем ухудшиться из-за изменений в данных и таких вещей, как изменения в мире.

Мы собираемся сосредоточиться на снижении производительности с течением времени, которое возникает из-за проблем между обучением и обслуживанием данных. На самом деле есть три основные причины этого дрейфа данных, дрейфа концепций и сдвига ковариации.

Дрейф данных.Дрейф данных — это концепция машинного обучения, которая относится к изменению распределения входных данных во времени. Это может произойти, когда основной процесс генерации данных изменяется, в результате чего входные признаки устаревают или больше не представляют целевую совокупность.
Дрейф концепции: это происходит, когда базовая связь между входными объектами и целевой переменной со временем меняется, что делает ранее обученную модель менее точной или даже бесполезной для прогнозирования новых данных. Это может быть вызвано множеством факторов, в том числе изменениями в процессе генерации данных, изменениями в поведении или предпочтениях пользователей, изменениями в окружающей среде или рыночных условиях, а также другими факторами, которые могут повлиять на взаимосвязь между входными функциями и целевой переменной. .
Ковариативный сдвиг:этоотносится к ситуации, в которой распределение входных переменных (ковариат) в обучающих данных отличается от распределения входных переменных в тестовых данных. . Это может вызвать проблемы для моделей машинного обучения, поскольку они могут быть не в состоянии хорошо обобщать обучающие данные на тестовые данные. Например, предположим, что вы строите модель для прогнозирования цен на жилье на основе различных характеристик, таких как расположение, размер, количество спален и т. д. Если распределение этих характеристик в обучающих данных значительно отличается от распределения характеристик в тестовых данных (например, если в обучающих данных в основном представлены небольшие квартиры в сельской местности, а в тестовых данных — в основном большие дома в городских районах), то модель может плохо работать на тестовых данных.

В приведенном ниже примере мы рассматриваем приложение, которое во время обучения было классифицировано как спамер, любой пользователь, который отправляет 20 или более сообщений в минуту. Таких мы классифицировали как спамеров. Но после обновления системы, которое вы видите на графике, как спамеры, так и не спамеры начинают отправлять больше сообщений. В этом случае данные и мир изменились, что приводит к нежелательной ошибочной классификации. У нас все наши пользователи классифицируются как спамеры, что им наверняка не понравится.

3. Перекос

Направьте судей на разницу между двумя статическими версиями или разными источниками, такими как тренировочный набор и набор для подачи. Мы сосредоточимся на двух типах перекосов перекосов схемы и перекосов дистрибутивов.

Перекос схемы. Это относится к ситуации, когда структура или формат данных различаются между разными источниками данных, что затрудняет интеграцию данных в единый анализ. Например, если данные собираются из разных источников, которые используют разные форматы данных или структуры, такие как файлы CSV, файлы JSON или базы данных с разными схемами, может возникнуть перекос схемы. Это может создать проблемы при попытке объединить и проанализировать данные, поскольку разные источники могут иметь разные имена столбцов, типы данных или отсутствующие значения. Это также может произойти из-за того, что вы собираете данные, и все меняется, и вдруг вы получаете целое число вместо числа с плавающей запятой. Или вы получаете строку, где вы ожидаете категорию.
Искажение распределения: этоотносится к расхождению наборов данных для обучения и обслуживания. Сдвиг набора данных может реально проявляться ковариантными и концептуальными и другими типами сдвигов.

2. Обнаружение проблем с данными

Обнаружение проблем с данными обычно начинается со сравнения базовой статистики и экземпляров вашего обслуживания. Вы проверяете различия между этим и вашими тренировочными данными. Вы ищете перекос и дрейф.

Значительные изменения становятся аномалиями и вызывают оповещение. Это оповещение поступает в чью-либо систему мониторинга, которая может быть либо человеком, либо другой системой, чтобы проанализировать изменение и принять решение о надлежащем плане действий. Это должно быть исправлением того, как вы собираетесь исправлять и реагировать на эту проблему.

2.1. Обнаружение перекоса

Давайте сначала начнем с обнаружения перекоса схемы. Есть несколько способов обнаружить перекос схемы:

Сравнение схем. Сравните схемы данных в разные моменты времени, чтобы выявить различия. Это можно сделать вручную, проверив схему, или программно, используя такие инструменты, как программное обеспечение для сравнения схем.
Профилирование данных. Используйте методы профилирования данных для анализа данных и выявления любых аномалий или несоответствий, которые могут указывать на перекос схемы. Инструменты профилирования данных могут помочь определить изменения в структуре данных, такие как добавление или удаление столбцов, изменение типов данных и т. д.
Статистический анализ. Используйте методы статистического анализа для выявления изменений в распределении данных с течением времени. Например, вы можете сравнить средние значения и дисперсии различных подмножеств данных, чтобы определить любые изменения в базовых распределениях.
Визуализация данных. Используйте инструменты визуализации данных, чтобы отображать данные во времени и выявлять любые изменения в структуре данных. Визуализация данных может помочь определить тенденции и шаблоны, которые могут указывать на перекос схемы.

2.2. Обнаружение дрейфа

Обнаружение дрейфа включает в себя непрерывную оценку данных, поступающих на ваш сервер после обучения модели. Для обнаружения этих изменений необходим постоянный мониторинг и оценка данных. Давайте взглянем на более строгое определение дрейфа и перекоса, о которых мы говорим.

Сдвиг набора данных: происходит, когда совместная вероятность x (функций) и y (ярлыков) не одинакова во время обучения и обслуживания. Данные со временем изменились.
Ковариантный сдвиг – это изменение распределения входных переменных, присутствующих в обучающих и обслуживающих данных. Другими словами, это когда предельное распределение x (признаков) не одинаково во время обучения и обслуживания, но условное распределение остается неизменным.
Сдвиг концепции: относится к изменению взаимосвязи между входными и выходными переменными, в отличие от различий в распределении данных или самих входных данных. Другими словами, это когда условное распределение y (меток) при заданных x (признаках) во время обучения и обслуживания неодинаково, но предельное распределение x (признаков) остается неизменным.

Если вам понравилась статья и вы хотите меня поддержать, сделайте следующее:

👏 Похлопайте в ладоши (50 хлопков), чтобы эта статья попала в топ
Подпишитесь на меня в Среднем
📰 Смотрите больше контента в моем среднем профиле
🔔 Подпишитесь на меня: LinkedIn|Youtube| Гитхаб | Твиттер

Хотите начать карьеру в области науки о данных и искусственного интеллекта, но не знаете, как это сделать. Я предлагаю сеансы наставничества по науке о данных и долгосрочное наставничество по карьере:

Долгосрочное наставничество: https://lnkd.in/dtdUYBrM
Менторские сессии: https://lnkd.in/dXeg3KPW