«Не будьте невеждой. ПЕРЕСТАНЬТЕ относиться к выбросам как к мусору, НАЧНИТЕ слушать, что они вам говорят. ”

Итак, давайте разберемся с выбросами…….

Что такое выброс?

  • Выброс на простом английском языке можно назвать лишним в ряду данных.
  • В статистике выброс — это точка наблюдения, удаленная от других наблюдений.
  • Часто это аномальные наблюдения, которые искажают распределение данных и возникают из-за непоследовательного ввода данных или ошибочных наблюдений.

Наиболее распространенные причины выбросов в наборе данных:

  • Ошибки ввода данных (человеческий фактор)
  • Ошибки измерения (ошибки прибора)
  • Ошибки эксперимента (ошибки извлечения данных или планирования/выполнения эксперимента)
  • Преднамеренные (фиктивные выбросы, сделанные для проверки методов обнаружения)
  • Ошибки обработки данных (манипулирование данными или непреднамеренные изменения набора данных).
  • Ошибки выборки (извлечение или смешивание данных из неправильных или разных источников)
  • Естественно (не ошибка, новшества в данных)

Когда Outlier опасен?

  • Если выбросы распределены неслучайно, они могут уменьшить нормальность.
  • Это увеличивает дисперсию ошибок и снижает мощность статистических тестов.
  • Они могут вызвать предвзятость и/или повлиять на оценки.
  • Они также могут повлиять на основное предположение регрессии, а также на другие статистические модели.

Влияние выбросов на алгоритмы машинного обучения:

  • Это вызывает различные проблемы во время нашего статистического анализа.
  • Это может оказать значительное влияние на среднее значение и стандартное отклонение.
  • Необычное явление во входных данных приводит к тому, что модель машинного обучения дает ложные результаты, что является переобучением. В качестве альтернативы модель может подчеркнуть нелогичный момент.

Как обнаружить выбросы??

Существует несколько способов выявления выбросов в наборе данных

  • Коробчатый сюжет
  • Точечная диаграмма ((мы можем визуализировать выброс, присутствующий в наборе данных, с помощью точечной диаграммы)
  • Метод Z-оценки
  • IQR-оценка

Блочный сюжет:

  • В описательной статистике ящичковая диаграмма — это метод графического изображения групп числовых данных через их квартили.
  • Коробчатые диаграммы также могут иметь линии, отходящие вертикально от прямоугольников (усов), указывающие на изменчивость за пределами верхнего и нижнего квартилей, отсюда и термины «диаграмма прямоугольника и усов» и «диаграмма прямоугольника и усов».
  • выбросы могут быть нанесены как отдельные точки.
  • Самый быстрый и простой способ определить выбросы — визуализировать их с помощью графика.
  • Однако этот метод не рекомендуется для многомерных данных, где мощность визуализации не работает.
  • Блочная диаграмма использует межквартильный диапазон для обнаружения выбросов. Здесь мы сначала определяем квартили Q1 и Q3.

Межквартильный размах определяется по формуле IQR = Q3 — Q1.

Верхний предел = Q3+1,5*IQR

Нижний предел = Q1–1,5*IQR

Все, что ниже нижнего предела и выше верхнего предела, считается выбросом.

График рассеяния:

  • Точечная диаграмма — это тип графика или математической диаграммы, использующей декартовы координаты для отображения значений обычно двух переменных для набора данных. Данные отображаются в виде набора точек, каждая из которых имеет значение одной переменной, определяющей положение на горизонтальной оси, и значение другой переменной, определяющей положение на вертикальной оси.
  • Точечная диаграмма — это набор точек, который показывает значения двух переменных.

  • Глядя на график выше, мы можем видеть, что большинство точек данных лежат внизу слева, но некоторые точки далеки от населения, например, верхний правый угол.

Метод Z-оценки:

  • Метод Z-оценки — это статистический метод, используемый для выявления выбросов путем измерения того, на сколько стандартных отклонений точка данных отличается от среднего значения.
  • Важно отметить, что метод Z-оценки предполагает, что данные следуют нормальному распределению.
  • Вычислите среднее значение (μ) и стандартное отклонение (σ) набора данных, который вы хотите проанализировать. Эти показатели описывают среднее значение и разброс данных соответственно.
  • Для каждой точки данных в наборе данных рассчитайте ее Z-оценку по формуле:
  • Z = (x — μ) / σ

Здесь x представляет значение точки данных, μ — среднее значение, а σ — стандартное отклонение.

  • Установите порог для выявления выбросов. Как правило, Z-показатель больше 2 или 3 считается выбросом, поскольку он указывает на точку данных, которая значительно отклоняется от среднего значения.
  • Определите точки данных с Z-баллами выше порога. Эти точки данных являются потенциальными выбросами.
  • Проанализируйте выявленные потенциальные выбросы в контексте ваших данных и исследований. Учитывайте такие факторы, как процесс сбора данных, характер измеряемой переменной и любые знания, относящиеся к предметной области, которые могут повлиять на интерпретацию выбросов.

IQR-оценка:

  • Метод IQR (межквартильный диапазон) — еще один статистический метод, используемый для выявления выбросов.
  • Он определяет диапазон, в который, как ожидается, попадет большинство точек данных, и идентифицирует точки данных, которые находятся за пределами этого диапазона, как потенциальные выбросы.

Как можно применить метод IQR:

  • Отсортируйте набор данных в порядке возрастания.
  • Вычислите первый квартиль (Q1), который представляет 25-й процентиль данных. Это значение, ниже которого падает 25% данных.
  • Вычислите третий квартиль (Q3), который представляет 75-й процентиль данных. Это значение, ниже которого падает 75% данных.
  • Вычислите межквартильный размах (IQR), вычитая Q1 из Q3:
  • IQR = Q3 — Q1.
  • Определите нижнюю границу как Q1–1,5 * IQR, а верхнюю границу как
  • Q3 + 1,5 * IQR.
  • Определите любые точки данных, которые попадают ниже нижней границы или выше верхней границы. Эти точки данных считаются потенциальными выбросами.
  • Имейте в виду, что метод IQR предполагает, что данные достаточно симметричны и следуют типичному распределению.

Алгоритмы, чувствительные к выбросам:

Линейная регрессия:

  • Линейная регрессия может быть чувствительна к выбросам в данных. Выбросы — это точки данных, которые значительно отклоняются от общей закономерности или тенденции в данных. Это может быть вызвано ошибками измерения, ошибками ввода данных или редкими событиями.

  • Выше мы видим, что значение r изменилось с добавлением выбросов.

Логистическая регрессия:

  • На логистическую регрессию, как и на линейную регрессию, могут влиять выбросы в данных.

Машины опорных векторов (SVM):

  • Машины опорных векторов (SVM) могут быть более устойчивыми к выбросам по сравнению с линейной регрессией. SVM стремятся найти гиперплоскость, которая максимально разделяет точки данных разных классов или максимизирует разницу между классами.

K-ближайший сосед:

  • На алгоритм K-ближайших соседей (KNN) также могут влиять выбросы, но его производительность, как правило, более надежна по сравнению с линейной регрессией.
  • Влияние на расчет расстояния: KNN полагается на измерение расстояния между точками данных, чтобы определить их сходство. Выбросы, находящиеся далеко от других точек данных, могут исказить расчеты расстояния. В результате выбросы могут оказывать непропорциональное влияние на решения по классификации или регрессии, принимаемые алгоритмом.
  • Голосование большинства при классификации: в случае классификации с использованием KNN метка класса новой точки данных определяется большинством голосов среди ее K ближайших соседей. Если среди соседей присутствуют выбросы, их метки классов могут отличаться от большинства классов в локальном соседстве. Это может привести к неправильной классификации новой точки данных.
  • Смещение в регрессии: в задачах регрессии с KNN прогнозируемое значение новой точки данных обычно рассчитывается как среднее или средневзвешенное значение ее K ближайших соседей. Выбросы с экстремальными значениями могут сильно влиять на среднее значение, приближая прогнозируемое значение к их значению и внося смещение в результаты регрессии.

Наивный Байес:

  • Да, выбросы влияют на наивного Байеса. Если при тестировании появляется слово, которое не было замечено при обучении, это приводит к нулевой вероятности этого конкретного слова в конкретном классе. И мы знаем, что в наивном Байесе мы умножаем вероятность слов, лежащих в этом конкретном классе, и получаем нуль... что приводит к неправильному результату.

K-значит:

  • Кластеризация K-средних также чувствительна к выбросам в данных. K-means — это итеративный алгоритм, целью которого является разбиение точек данных на k кластеров на основе их сходства.
  • Центры кластеров. Выбросы по определению представляют собой точки данных, которые значительно отклоняются от большинства данных. Когда k-средние применяются к набору данных с выбросами, эти экстремальные значения могут непропорционально влиять на положение центров кластеров. В результате центры кластеров могут смещаться к выбросам, что приводит к неоптимальному распределению кластеров.
  • Границы кластера: выбросы могут нарушить формирование границ кластера. В k-средних алгоритм присваивает каждой точке данных ближайший центр кластера на основе евклидова расстояния. Выбросы, находящиеся на большом расстоянии от любого центра кластера, могут стать их отдельными кластерами или создать большие промежутки между кластерами. Это может исказить общую структуру кластеризации и затруднить интерпретацию результатов.
  • Размер и плотность кластера. Выбросы могут влиять на размер и плотность кластеров. При наличии выбросов некоторые кластеры могут иметь очень мало точек данных, в то время как другие могут стать чрезмерно большими. Этот дисбаланс может повлиять на общее качество и репрезентативность кластеров, затрудняя обобщение или извлечение осмысленных выводов из результатов.

………………………………………………………………………………………………

Тем не менее, есть много способов обнаружить и исправить выбросы, но я однажды рассмотрел основные и важные методы.

Если вы узнали что-то из этого блога, не забудьте поставить 👏🏼

Встретимся в какой-нибудь другой статье, а пока Мир ✌🏼.

Приятного чтения.

Спасибо..