Нормальное распределение, наиболее часто встречающееся и используемое распределение, описывается двумя параметрами: μ и σ². Они определяют, как будет выглядеть раздача. Собственно говоря
68% данных лежат в районе первого стандартного отклонения (σ) от среднего (по 34% с каждой стороны),
26,2 % данных лежат между первым и вторым стандартным отклонением (σ) (по 13,1 % с каждой стороны) и так далее.
Это означает, что примерно 95% данных в распределении Гаусса находятся в пределах 2 стандартных отклонений от среднего значения.
Многие одномерные обнаружения аномалий на самом деле основаны на этом предположении о нормальном распределении данных.
Одномерное обнаружение аномалий. Иногда для достижения цели более чем достаточно простых методов.
Z-оценка: измеряет, насколько стандартное отклонение данного наблюдения от среднего значения. = x-mean(x) / sd(x).
Это справедливо, когда предполагается, что данные нормально распределены.
Модифицированный Z-показатель: используется, когда предположение о нормальности не выполняется или выборка мала. Мы используем «медиану» вместо среднего и вычисляем среднее абсолютное отклонение вместо стандартного отклонения.
= 0,6745 (x- медиана (x) / MAD (x)
SD(x) = sqrt (сумма((x-mean(x))2)/n-1)
MAD = медиана (|Yi — медиана (Yi|)
Обнаружение выбросов на основе межквартильного диапазона. Точки данных выше и ниже этого диапазона считаются выбросами.
Q1 − 1,5 * IQR: нижняя граница выброса.
Q3 + 1,5 * IQR: Верхний порог выброса.
Проверка гипотез на основе обнаружения выбросов
Тест Граббса предполагает, что ваши данные взяты из нормально распределенной совокупности, и он может обнаружить только один выброс. Если вы подозреваете, что у вас есть дополнительные выбросы, используйте другой тест.
Нулевая гипотеза: все значения в выборке были взяты из одной совокупности, которая следует одному и тому же нормальному распределению.
Альтернативная гипотеза: одно значение в выборке не было взято из той же нормально распределенной совокупности, что и другие значения.
Если p-значение для этого теста меньше вашего уровня значимости, вы можете отклонить нулевое значение и сделать вывод, что одно из значений является выбросом. Анализ определяет рассматриваемое значение.
Изолированный лес:
Как и случайный лес, изолированный лес также использует деревья решений. Для каждого бинарного дерева выберите подвыборку и для каждого разреза выберите случайный признак с любым значением между его верхней и нижней границами. Основная идея заключается в том, что аномалии изолируются намного быстрее, чем другие значения.
Каждой точке данных присваивается оценка аномалии. Оценка, близкая к 1, указывает на аномалии. Оценка намного меньше 0,5 указывает на нормальные наблюдения.
- Когда предоставляется набор данных, случайная подвыборка данных выбирается и назначается двоичному дереву.
- Ветвление дерева начинается с выбора случайного признака (из набора всех N признаков). А затем выполняется ветвление на случайном пороге (любое значение в диапазоне минимального и максимального значений выбранного признака).
- Если значение точки данных меньше выбранного порога, она переходит на левую ветвь, иначе — на правую. Таким образом, узел разделяется на левую и правую ветви.
- Этот процесс, начиная с шага 2, рекурсивно продолжается до тех пор, пока каждая точка данных не будет полностью изолирована или пока не будет достигнута максимальная глубина (если она определена).
- Описанные выше шаги повторяются для построения случайных бинарных деревьев.
Во время скоринга точка данных проходит через все деревья, которые были обучены ранее. Теперь каждой точке данных присваивается «оценка аномалии» в зависимости от глубины дерева, необходимой для достижения этой точки.
Эта оценка представляет собой совокупность глубины, полученной от каждого из iTree.
Оценка аномалии -1 присваивается аномалиям и 1 нормальным баллам на основе предоставленного параметра загрязнения (процент аномалий, присутствующих в данных).
Расстояние Маханалобиса: многомерный показатель расстояния, измеряющий расстояние между точкой и распределением. Следовательно, он используется в задачах классификации / обнаружения аномалий 1 класса.
- Он преобразует столбцы в некоррелированные переменные
- Масштабируйте столбцы, чтобы их дисперсия была равна 1.
- Наконец, он вычисляет евклидово расстояние.
Помните об ограничениях евклидова расстояния:
- Это не инвариант масштаба, что означает, что расстояния зависят от единиц измерения. Всегда нормализуйте данные перед использованием этой меры расстояния.
- Это работает, когда измерения одинаково взвешены и независимы.
- Плохо справляется со значительным увеличением размерности
- Если измерения (столбцы в вашем наборе данных) коррелируют друг с другом, евклидово расстояние между точкой и центром точек (распределение) может дать небольшую или вводящую в заблуждение информацию о том, насколько близко точка действительно находится к кластеру.
SVM одного класса:
Обычный SVM находит гиперплоскость с максимальным запасом, которая разделяет два класса различий, но в одном классе SVM находит гиперплоскость, которая отделяет данный набор данных от источника, так что гиперплоскость находится как можно ближе к точкам данных. Обычно ядро RBF используется для подбора нелинейной границы вокруг плотной области набора данных, разделяющей оставшиеся точки как выбросы.
Фактор локального выброса: (обнаружение выбросов на основе расстояния)
Локальный фактор выброса точки говорит о плотности точки по сравнению с плотностью ее соседей. Если плотность точки намного меньше плотности ее соседей, точка находится далеко от плотной области и, следовательно, является выбросом.
Кластеризация для обнаружения выбросов: DBSCAN
Мы можем использовать DBSCAN в качестве алгоритма AD, так как любая точка, не принадлежащая ни одному кластеру, становится выбросом.
DBSCAN требует только два параметра: epsilon и minPoints.
Эпсилон – это радиус круга, который создается вокруг каждой точки данных для проверки плотности.
minPoints – это минимальное количество точек данных, необходимое внутри этого круга, чтобы эта точка данных была классифицирована как основная точка.
- Случайным образом выберите точку, которая еще не была отнесена к кластеру или не обозначена как выброс. Определите, является ли это центральной точкой, посмотрев, есть ли вокруг нее по крайней мере точки min_samples в пределах расстояния эпсилон.
- Создайте кластер из этой центральной точки и всех точек в пределах эпсилон-расстояния от нее (всех непосредственно достижимых точек).
- Найдите все точки, которые находятся в пределах расстояния эпсилон от каждой точки в кластере, и добавьте их в кластер. Найдите все точки, которые находятся в пределах расстояния эпсилон от всех вновь добавленных точек, и добавьте их в кластер. Промыть и повторить. (т. е. выполнить «переходы по окрестностям», чтобы найти все достижимые по плотности точки и добавить их в кластер
- Любая случайно выбранная точка, которая не является центральной или пограничной точкой, называется точкой шума или выбросом и не относится ни к какому кластеру. Таким образом, он не содержит по крайней мере min_samples точек, которые находятся в пределах эпсилон-расстояния от него или не находятся в эпсилон-расстоянии от центральной точки.
Могут быть и другие подходы для обнаружения выбросов, однако это некоторые распространенные.
*** Отказ от ответственности: это объединение заметок, собранных из различных веб-источников для быстрого ознакомления ***