Как бы вы описали выбросы?

Это наблюдения, которые находятся на аномальном расстоянии от других значений в случайной выборке из совокупности. Проще говоря, число или числа, которые намного выше или ниже диапазона другого близкого набора чисел, считаются выбросом.

Как возникают выбросы?

Выбросы могут возникать по ряду причин. Некоторые из них включают:

  • Ошибки записи
  • Необычная выборка данных
  • Естественные ошибки из-за выборки данных
  • Ошибка обработки данных

Как идентифицируются выбросы?

Их можно легко заметить с помощью следующих графических приемов.

  • Диаграммы рассеяния
  • Коробчатые графики

Диаграммы рассеяния

Используя диаграмму рассеяния, точки, наиболее удаленные от линии регрессии, являются выбросами. Расстояние до линии измеряется перпендикулярно линии.

Если одна точка диаграммы рассеяния находится дальше от линии регрессии, чем какая-либо другая точка, то диаграмма рассеяния имеет по крайней мере один выброс.

Если несколько точек находятся на таком же самом дальнем расстоянии от линии регрессии, то все эти точки являются выбросами. Если все точки диаграммы рассеяния находятся на одинаковом расстоянии от линии регрессии, выброса нет.

Коробчатые диаграммы

В описательной статистике коробчатая диаграмма используется для пояснительного анализа данных, чтобы показать выбросы в наборе данных.

Коробчатая диаграмма строится путем рисования прямоугольника между верхним и нижним квартилями со сплошной линией, проведенной поперек прямоугольника для определения медианы.

Любое число, которое находится над верхним забором или под нижним забором, считается исключением. Верхний забор (квартиль) и нижний забор (квартиль) получаются по следующим формулам:

Примечание. Используйте функцию QUARTILEINC, чтобы получить значение для Q1 и Q3 любого заданного поля / столбца.

IQR = Q3 - Q1

Верхний забор = Q3 + 1,5 * IQR

Нижний забор = Q1 - 1,5 * IQR

Как бороться с выбросами

  • Сравните, получены ли выбросы в результате ввода данных, и исправьте их.
  • Измените значения выбросов, используя верхнюю и нижнюю границы, в зависимости от того, насколько искажены данные из-за выброса.
  • Если выброс влияет и на результаты, и на предположения, нет необходимости отбрасывать выброс.
  • Удалите записи, содержащие выбросы, если процент НЕ очень велик.

Все это зависит от количества имеющихся данных.