Выбросы создают проблемы. Но они также представляют собой интересный набор точек данных. В зависимости от контекста проблемы они могут заключить сделку или разорвать ее. Крайне важно, пытаясь решить любую проблему, уделять им особое внимание.

Начнем с того, что они из себя представляют.

Выбросы - это точки данных, которые находятся на ненормальном расстоянии от распределения данных. Однако определение аномального расстояния субъективно в зависимости от контекста. Есть разные способы идентифицировать выбросы в наборе данных. Мы рассмотрим их позже.

Но пока вернемся к выбросам.

Почему мы вообще говорим об отклонениях? Что произойдет, если вы сохраните некоторые из этих точек данных во время обработки данных и построения классных моделей машинного обучения?

Интересный факт о моделях машинного обучения: многие из них чувствительны к диапазону данных. Некоторые очень конкретно относятся к распределению, которому следуют ряды данных. Такие сложности означают, что наличие выбросов в данных может помешать обучению модели, выбрасывать неверные параметры и искажать результаты модели. Это также привело бы к тому, что модель будет уделять больше внимания некоторым наблюдениям, которые чрезвычайно редки по своей частоте встречаемости.

Итак, теперь, когда мы увидели, какие последствия могут иметь выбросы, если их не обработать в наборе данных, давайте на минутку задумаемся о том, как они обычно туда попадают.

Я позаимствовал эти указатели из этого очень интересного блога [1], который прольет некоторый свет на возможные причины, по которым вы можете столкнуться с выбросами в ваших наборах данных. Подводя итог, ваши данные могут содержать ошибку по следующим причинам:

  1. Человеческие ошибки: ошибки из-за ввода данных
  2. Инструментальные ошибки: ошибки из-за неправильного измерения
  3. Экспериментальные ошибки: ошибки, допущенные при извлечении данных.
  4. Ошибки обработки: мутации данных из-за неправильной обработки данных
  5. Ошибки выборки: ассимиляция или сопоставление данных из нескольких источников.
  6. Преднамеренное размещение выбросов для тестирования
  7. Естественные вариации данных

Чрезвычайно важно, чтобы специалист по данным понимал, что означают выбросы в реальном мире в контексте решаемой проблемы.

Сценарий 1: в классе учащийся, набравший 99% баллов по тесту, а также другой учащийся, получивший 9% баллов в том же тесте, являются выбросами. Учитель, оценивающий и оценивающий работы, наблюдает за этими исключительными данными, которые лежат далеко от среднего показателя класса в 72%. Учитель решает, что оба эти случая являются исключительными и требуют особого внимания. Усилия, вложенные студентом 1 в подготовку к экзамену, должны быть признаны и оценены. Однако ученику 2, набравшему 9%, нужна дополнительная помощь в понимании концепций.

Статистика: в пределах одного и того же ряда данных выбросы могут обрабатываться по-разному.

Сценарий 2. Фармацевтические компании хотят разослать врачам рекламные материалы о своем продукте. Но команда отмечает, что возраст для конкретного врача, врача 1, был неправильно введен как 4. Они сталкиваются с проблемой из-за неправильного ввода данных. Другому врачу, терапевту, врачу 2, 89 лет, и он все еще практикует. (Не могу их достаточно отблагодарить в текущей ситуации, да и в противном случае). Но его не слишком устраивает цифровое вмешательство, которое компании вносят в наши дни, и он отказался от участия в исследовании. Команда решает рассмотреть только самые надежные наблюдения без двусмысленности и исключить этих двух врачей из анализа.

Статистика: в рамках одного и того же ряда данных выбросы можно обрабатывать аналогичным образом.

Сценарий 3. Компания, выпускающая кредитную карту, замечает, что за последние 4 месяца подряд пользователь увеличил свои расходы по кредитной карте почти на 400%, в результате чего он оказался в десятке крупнейших по расходам средств за последний квартал. Подобная модель наблюдалась и для нескольких других клиентов, где список 10 крупнейших спонсоров полностью изменился, и теперь в их соответствующих кредитных категориях появилось 6 новых участников. Компания решает рассылать им рекламные акции и предложения относительно обновлений кредитных карт в зависимости от их платежеспособности.

Статистика: в одном и том же ряду данных выбросы представляли особый интерес и были сохранены.

Следовательно, не все выбросы являются преступниками, которые могут вызвать проблемы. Некоторые из них - одаренные личности, которые могут сделать вашу жизнь интереснее. Стоит взвесить их актуальность для проблемы. В некоторых случаях вам нужно будет убедить их дать некоторые идеи, в то время как им, возможно, потребуется сильное вооружение на случай, если они создадут какие-то неудобства в ваших аналитических усилиях.

Следите за следующей публикацией, где мы обсудим, как мы можем обнаруживать / идентифицировать выбросы.

использованная литература

[1]: https://towardsdatascience.com/a-brief-overview-of-outlier-detection-techniques-1e0b2c19e561