Выбросы создают проблемы. Но они также представляют собой интересный набор точек данных. В зависимости от контекста проблемы они могут заключить сделку или разорвать ее. Крайне важно, пытаясь решить любую проблему, уделять им особое внимание.
Начнем с того, что они из себя представляют.
Выбросы - это точки данных, которые находятся на ненормальном расстоянии от распределения данных. Однако определение аномального расстояния субъективно в зависимости от контекста. Есть разные способы идентифицировать выбросы в наборе данных. Мы рассмотрим их позже.
Но пока вернемся к выбросам.
Почему мы вообще говорим об отклонениях? Что произойдет, если вы сохраните некоторые из этих точек данных во время обработки данных и построения классных моделей машинного обучения?
Интересный факт о моделях машинного обучения: многие из них чувствительны к диапазону данных. Некоторые очень конкретно относятся к распределению, которому следуют ряды данных. Такие сложности означают, что наличие выбросов в данных может помешать обучению модели, выбрасывать неверные параметры и искажать результаты модели. Это также привело бы к тому, что модель будет уделять больше внимания некоторым наблюдениям, которые чрезвычайно редки по своей частоте встречаемости.
Итак, теперь, когда мы увидели, какие последствия могут иметь выбросы, если их не обработать в наборе данных, давайте на минутку задумаемся о том, как они обычно туда попадают.
Я позаимствовал эти указатели из этого очень интересного блога [1], который прольет некоторый свет на возможные причины, по которым вы можете столкнуться с выбросами в ваших наборах данных. Подводя итог, ваши данные могут содержать ошибку по следующим причинам:
- Человеческие ошибки: ошибки из-за ввода данных
- Инструментальные ошибки: ошибки из-за неправильного измерения
- Экспериментальные ошибки: ошибки, допущенные при извлечении данных.
- Ошибки обработки: мутации данных из-за неправильной обработки данных
- Ошибки выборки: ассимиляция или сопоставление данных из нескольких источников.
- Преднамеренное размещение выбросов для тестирования
- Естественные вариации данных
Чрезвычайно важно, чтобы специалист по данным понимал, что означают выбросы в реальном мире в контексте решаемой проблемы.
Сценарий 1: в классе учащийся, набравший 99% баллов по тесту, а также другой учащийся, получивший 9% баллов в том же тесте, являются выбросами. Учитель, оценивающий и оценивающий работы, наблюдает за этими исключительными данными, которые лежат далеко от среднего показателя класса в 72%. Учитель решает, что оба эти случая являются исключительными и требуют особого внимания. Усилия, вложенные студентом 1 в подготовку к экзамену, должны быть признаны и оценены. Однако ученику 2, набравшему 9%, нужна дополнительная помощь в понимании концепций.
Статистика: в пределах одного и того же ряда данных выбросы могут обрабатываться по-разному.
Сценарий 2. Фармацевтические компании хотят разослать врачам рекламные материалы о своем продукте. Но команда отмечает, что возраст для конкретного врача, врача 1, был неправильно введен как 4. Они сталкиваются с проблемой из-за неправильного ввода данных. Другому врачу, терапевту, врачу 2, 89 лет, и он все еще практикует. (Не могу их достаточно отблагодарить в текущей ситуации, да и в противном случае). Но его не слишком устраивает цифровое вмешательство, которое компании вносят в наши дни, и он отказался от участия в исследовании. Команда решает рассмотреть только самые надежные наблюдения без двусмысленности и исключить этих двух врачей из анализа.
Статистика: в рамках одного и того же ряда данных выбросы можно обрабатывать аналогичным образом.
Сценарий 3. Компания, выпускающая кредитную карту, замечает, что за последние 4 месяца подряд пользователь увеличил свои расходы по кредитной карте почти на 400%, в результате чего он оказался в десятке крупнейших по расходам средств за последний квартал. Подобная модель наблюдалась и для нескольких других клиентов, где список 10 крупнейших спонсоров полностью изменился, и теперь в их соответствующих кредитных категориях появилось 6 новых участников. Компания решает рассылать им рекламные акции и предложения относительно обновлений кредитных карт в зависимости от их платежеспособности.
Статистика: в одном и том же ряду данных выбросы представляли особый интерес и были сохранены.
Следовательно, не все выбросы являются преступниками, которые могут вызвать проблемы. Некоторые из них - одаренные личности, которые могут сделать вашу жизнь интереснее. Стоит взвесить их актуальность для проблемы. В некоторых случаях вам нужно будет убедить их дать некоторые идеи, в то время как им, возможно, потребуется сильное вооружение на случай, если они создадут какие-то неудобства в ваших аналитических усилиях.
Следите за следующей публикацией, где мы обсудим, как мы можем обнаруживать / идентифицировать выбросы.
использованная литература
[1]: https://towardsdatascience.com/a-brief-overview-of-outlier-detection-techniques-1e0b2c19e561