В Production ML качество данных — это все. Неважно, насколько хороши ваши модели или алгоритмы, если данные, которые вы им подаете, — мусор, вы получите мусорные результаты. Но как узнать, хорошие у вас данные или плохие? Это то, что мы собираемся исследовать в этой статье.
Мы начнем с обсуждения важности проверки данных и выявления проблем с данными в рабочей среде. В частности, мы сосредоточимся на двух типах проблем с данными: дрейф данных и концепций и перекос схемы и распределения. Эти проблемы может быть трудно обнаружить, но они могут оказать значительное влияние на точность и надежность ваших моделей машинного обучения.
К концу этой статьи у вас будет четкое представление о том, как концептуально обнаруживать проблемы с данными, включая дрейф и перекос, и какие шаги вы можете предпринять для их устранения. Итак, давайте начнем наш путь к освоению контроля качества данных в производстве!
Оглавление:
- Проблемы с данными
- Дрейф
2.1. Дрейф данных
2.2. Концепция дрейфа - Перекос
3.1. Перекос схемы
3.2. Перекос распределения - Обнаружение проблем с данными
2.1. Обнаружение перекоса
2.2. Обнаружение дрейфа
Если вы хотите бесплатно изучать науку о данных и машинное обучение, ознакомьтесь со следующими ресурсами:
- Бесплатные интерактивные дорожные карты для самостоятельного изучения науки о данных и машинного обучения. Начните здесь: https://aigents.co/learn/roadmaps/intro
- Поисковая система для учебных ресурсов Data Science (БЕСПЛАТНО). Добавляйте в закладки свои любимые ресурсы, отмечайте статьи как завершенные и добавляйте учебные заметки. https://aigents.co/learn
- Хотите изучить науку о данных с нуля при поддержке наставника и учебного сообщества? Присоединяйтесь к этому учебному кружку бесплатно: https://community.aigents.co/spaces/9010170/
Если вы хотите начать карьеру в области обработки данных и искусственного интеллекта и вам нужно знать, как это сделать. Я предлагаю сеансы наставничества по науке о данных и долгосрочное наставничество по карьере:
- Долгосрочное наставничество: https://lnkd.in/dtdUYBrM
- Менторские сессии: https://lnkd.in/dXeg3KPW
Присоединяйтесь к программе Среднее членство всего за 5 $, чтобы продолжать обучение без ограничений. Я получу небольшую часть вашего членского взноса, если вы бесплатно перейдете по следующей ссылке.
1. Проблемы с данными
Данные являются важнейшим элементом многих производственных процессов, от производства до здравоохранения и финансовых услуг. Однако качество и актуальность данных могут меняться со временем, что приводит к проблемам, которые могут повлиять на точность и эффективность этих процессов. Двумя наиболее важными проблемами данных в производстве являются дрейф и перекос.
Дрейф данных возникает, когда статистические свойства данных, используемых для построения модели или системы, со временем изменяются, что приводит к снижению производительности. Это может произойти из-за изменений в основной популяции, ошибок измерения или других факторов. Дрейф данных может привести к устареванию моделей и получению неточных результатов, что может привести к операционным и финансовым потерям.
С другой стороны, перекос данных возникает, когда данные, используемые для построения модели или системы, не являются репрезентативными для населения реального мира, для обслуживания которого они предназначены. Искаженные данные могут привести к предвзятым моделям и решениям, что может привести к несправедливому отношению к отдельным лицам или группам и негативно повлиять на результаты бизнеса.
И дрейф, и перекос являются критическими проблемами, которые необходимо решать в производстве, чтобы гарантировать точное и эффективное принятие решений. Такие методы, как непрерывный мониторинг, дополнение данных и тестирование разнообразия, могут помочь обнаружить и смягчить эти проблемы. Важно уделять первоочередное внимание качеству и точности данных в производстве, чтобы гарантировать, что процессы оптимизированы для достижения успеха.
2. Дрифт
В типичном конвейере машинного обучения у вас будут разные источники данных, которые концептуально одинаковы. У них одинаковый вектор признаков, но со временем они изменятся. Это означает, что производительность модели может либо быстро упасть из-за таких вещей, как сбой системы, либо со временем ухудшиться из-за изменений в данных и таких вещей, как изменения в мире.
Мы собираемся сосредоточиться на снижении производительности с течением времени, которое возникает из-за проблем между обучением и обслуживанием данных. На самом деле есть три основные причины этого дрейфа данных, дрейфа концепций и сдвига ковариации.
- Дрейф данных.Дрейф данных — это концепция машинного обучения, которая относится к изменению распределения входных данных во времени. Это может произойти, когда основной процесс генерации данных изменяется, в результате чего входные признаки устаревают или больше не представляют целевую совокупность.
- Дрейф концепции: это происходит, когда базовая связь между входными объектами и целевой переменной со временем меняется, что делает ранее обученную модель менее точной или даже бесполезной для прогнозирования новых данных. Это может быть вызвано множеством факторов, в том числе изменениями в процессе генерации данных, изменениями в поведении или предпочтениях пользователей, изменениями в окружающей среде или рыночных условиях, а также другими факторами, которые могут повлиять на взаимосвязь между входными функциями и целевой переменной. .
- Ковариативный сдвиг:этоотносится к ситуации, в которой распределение входных переменных (ковариат) в обучающих данных отличается от распределения входных переменных в тестовых данных. . Это может вызвать проблемы для моделей машинного обучения, поскольку они могут быть не в состоянии хорошо обобщать обучающие данные на тестовые данные. Например, предположим, что вы строите модель для прогнозирования цен на жилье на основе различных характеристик, таких как расположение, размер, количество спален и т. д. Если распределение этих характеристик в обучающих данных значительно отличается от распределения характеристик в тестовых данных (например, если в обучающих данных в основном представлены небольшие квартиры в сельской местности, а в тестовых данных — в основном большие дома в городских районах), то модель может плохо работать на тестовых данных.
В приведенном ниже примере мы рассматриваем приложение, которое во время обучения было классифицировано как спамер, любой пользователь, который отправляет 20 или более сообщений в минуту. Таких мы классифицировали как спамеров. Но после обновления системы, которое вы видите на графике, как спамеры, так и не спамеры начинают отправлять больше сообщений. В этом случае данные и мир изменились, что приводит к нежелательной ошибочной классификации. У нас все наши пользователи классифицируются как спамеры, что им наверняка не понравится.
3. Перекос
Направьте судей на разницу между двумя статическими версиями или разными источниками, такими как тренировочный набор и набор для подачи. Мы сосредоточимся на двух типах перекосов перекосов схемы и перекосов дистрибутивов.
- Перекос схемы. Это относится к ситуации, когда структура или формат данных различаются между разными источниками данных, что затрудняет интеграцию данных в единый анализ. Например, если данные собираются из разных источников, которые используют разные форматы данных или структуры, такие как файлы CSV, файлы JSON или базы данных с разными схемами, может возникнуть перекос схемы. Это может создать проблемы при попытке объединить и проанализировать данные, поскольку разные источники могут иметь разные имена столбцов, типы данных или отсутствующие значения. Это также может произойти из-за того, что вы собираете данные, и все меняется, и вдруг вы получаете целое число вместо числа с плавающей запятой. Или вы получаете строку, где вы ожидаете категорию.
- Искажение распределения: этоотносится к расхождению наборов данных для обучения и обслуживания. Сдвиг набора данных может реально проявляться ковариантными и концептуальными и другими типами сдвигов.
2. Обнаружение проблем с данными
Обнаружение проблем с данными обычно начинается со сравнения базовой статистики и экземпляров вашего обслуживания. Вы проверяете различия между этим и вашими тренировочными данными. Вы ищете перекос и дрейф.
Значительные изменения становятся аномалиями и вызывают оповещение. Это оповещение поступает в чью-либо систему мониторинга, которая может быть либо человеком, либо другой системой, чтобы проанализировать изменение и принять решение о надлежащем плане действий. Это должно быть исправлением того, как вы собираетесь исправлять и реагировать на эту проблему.
2.1. Обнаружение перекоса
Давайте сначала начнем с обнаружения перекоса схемы. Есть несколько способов обнаружить перекос схемы:
- Сравнение схем. Сравните схемы данных в разные моменты времени, чтобы выявить различия. Это можно сделать вручную, проверив схему, или программно, используя такие инструменты, как программное обеспечение для сравнения схем.
- Профилирование данных. Используйте методы профилирования данных для анализа данных и выявления любых аномалий или несоответствий, которые могут указывать на перекос схемы. Инструменты профилирования данных могут помочь определить изменения в структуре данных, такие как добавление или удаление столбцов, изменение типов данных и т. д.
- Статистический анализ. Используйте методы статистического анализа для выявления изменений в распределении данных с течением времени. Например, вы можете сравнить средние значения и дисперсии различных подмножеств данных, чтобы определить любые изменения в базовых распределениях.
- Визуализация данных. Используйте инструменты визуализации данных, чтобы отображать данные во времени и выявлять любые изменения в структуре данных. Визуализация данных может помочь определить тенденции и шаблоны, которые могут указывать на перекос схемы.
2.2. Обнаружение дрейфа
Обнаружение дрейфа включает в себя непрерывную оценку данных, поступающих на ваш сервер после обучения модели. Для обнаружения этих изменений необходим постоянный мониторинг и оценка данных. Давайте взглянем на более строгое определение дрейфа и перекоса, о которых мы говорим.
- Сдвиг набора данных: происходит, когда совместная вероятность x (функций) и y (ярлыков) не одинакова во время обучения и обслуживания. Данные со временем изменились.
- Ковариантный сдвиг – это изменение распределения входных переменных, присутствующих в обучающих и обслуживающих данных. Другими словами, это когда предельное распределение x (признаков) не одинаково во время обучения и обслуживания, но условное распределение остается неизменным.
- Сдвиг концепции: относится к изменению взаимосвязи между входными и выходными переменными, в отличие от различий в распределении данных или самих входных данных. Другими словами, это когда условное распределение y (меток) при заданных x (признаках) во время обучения и обслуживания неодинаково, но предельное распределение x (признаков) остается неизменным.
Если вам понравилась статья и вы хотите меня поддержать, сделайте следующее:
- 👏 Похлопайте в ладоши (50 хлопков), чтобы эта статья попала в топ
- Подпишитесь на меня в Среднем
- 📰 Смотрите больше контента в моем среднем профиле
- 🔔 Подпишитесь на меня: LinkedIn|Youtube| Гитхаб | Твиттер
Присоединяйтесь к программе Среднее членство всего за 5 $, чтобы продолжать обучение без ограничений. Я получу небольшую часть вашего членского взноса, если вы бесплатно перейдете по следующей ссылке.
Хотите начать карьеру в области науки о данных и искусственного интеллекта, но не знаете, как это сделать. Я предлагаю сеансы наставничества по науке о данных и долгосрочное наставничество по карьере:
- Долгосрочное наставничество: https://lnkd.in/dtdUYBrM
- Менторские сессии: https://lnkd.in/dXeg3KPW