Обнаружение аномалий в данных

Нормальное распределение, наиболее часто встречающееся и используемое распределение, описывается двумя параметрами: μ и σ². Они определяют, как будет выглядеть раздача. Собственно говоря

68% данных лежат в районе первого стандартного отклонения (σ) от среднего (по 34% с каждой стороны),

26,2 % данных лежат между первым и вторым стандартным отклонением (σ) (по 13,1 % с каждой стороны) и так далее.

Это означает, что примерно 95% данных в распределении Гаусса находятся в пределах 2 стандартных отклонений от среднего значения.

Многие одномерные обнаружения аномалий на самом деле основаны на этом предположении о нормальном распределении данных.

Одномерное обнаружение аномалий. Иногда для достижения цели более чем достаточно простых методов.

Z-оценка: измеряет, насколько стандартное отклонение данного наблюдения от среднего значения. = x-mean(x) / sd(x).

Это справедливо, когда предполагается, что данные нормально распределены.

Модифицированный Z-показатель: используется, когда предположение о нормальности не выполняется или выборка мала. Мы используем «медиану» вместо среднего и вычисляем среднее абсолютное отклонение вместо стандартного отклонения.

= 0,6745 (x- медиана (x) / MAD (x)

SD(x) = sqrt (сумма((x-mean(x))2)/n-1)

MAD = медиана (|Yi — медиана (Yi|)

Обнаружение выбросов на основе межквартильного диапазона. Точки данных выше и ниже этого диапазона считаются выбросами.

Q1 − 1,5 * IQR: нижняя граница выброса.

Q3 + 1,5 * IQR: Верхний порог выброса.

Проверка гипотез на основе обнаружения выбросов

Тест Граббса предполагает, что ваши данные взяты из нормально распределенной совокупности, и он может обнаружить только один выброс. Если вы подозреваете, что у вас есть дополнительные выбросы, используйте другой тест.

Нулевая гипотеза: все значения в выборке были взяты из одной совокупности, которая следует одному и тому же нормальному распределению.

Альтернативная гипотеза: одно значение в выборке не было взято из той же нормально распределенной совокупности, что и другие значения.

Если p-значение для этого теста меньше вашего уровня значимости, вы можете отклонить нулевое значение и сделать вывод, что одно из значений является выбросом. Анализ определяет рассматриваемое значение.

Изолированный лес:

Как и случайный лес, изолированный лес также использует деревья решений. Для каждого бинарного дерева выберите подвыборку и для каждого разреза выберите случайный признак с любым значением между его верхней и нижней границами. Основная идея заключается в том, что аномалии изолируются намного быстрее, чем другие значения.

Каждой точке данных присваивается оценка аномалии. Оценка, близкая к 1, указывает на аномалии. Оценка намного меньше 0,5 указывает на нормальные наблюдения.

Когда предоставляется набор данных, случайная подвыборка данных выбирается и назначается двоичному дереву.
Ветвление дерева начинается с выбора случайного признака (из набора всех N признаков). А затем выполняется ветвление на случайном пороге (любое значение в диапазоне минимального и максимального значений выбранного признака).
Если значение точки данных меньше выбранного порога, она переходит на левую ветвь, иначе — на правую. Таким образом, узел разделяется на левую и правую ветви.
Этот процесс, начиная с шага 2, рекурсивно продолжается до тех пор, пока каждая точка данных не будет полностью изолирована или пока не будет достигнута максимальная глубина (если она определена).
Описанные выше шаги повторяются для построения случайных бинарных деревьев.

Во время скоринга точка данных проходит через все деревья, которые были обучены ранее. Теперь каждой точке данных присваивается «оценка аномалии» в зависимости от глубины дерева, необходимой для достижения этой точки.

Эта оценка представляет собой совокупность глубины, полученной от каждого из iTree.

Оценка аномалии -1 присваивается аномалиям и 1 нормальным баллам на основе предоставленного параметра загрязнения (процент аномалий, присутствующих в данных).

Расстояние Маханалобиса: многомерный показатель расстояния, измеряющий расстояние между точкой и распределением. Следовательно, он используется в задачах классификации / обнаружения аномалий 1 класса.

Он преобразует столбцы в некоррелированные переменные
Масштабируйте столбцы, чтобы их дисперсия была равна 1.
Наконец, он вычисляет евклидово расстояние.

Помните об ограничениях евклидова расстояния:

Это не инвариант масштаба, что означает, что расстояния зависят от единиц измерения. Всегда нормализуйте данные перед использованием этой меры расстояния.
Это работает, когда измерения одинаково взвешены и независимы.
Плохо справляется со значительным увеличением размерности
Если измерения (столбцы в вашем наборе данных) коррелируют друг с другом, евклидово расстояние между точкой и центром точек (распределение) может дать небольшую или вводящую в заблуждение информацию о том, насколько близко точка действительно находится к кластеру.

SVM одного класса:

Обычный SVM находит гиперплоскость с максимальным запасом, которая разделяет два класса различий, но в одном классе SVM находит гиперплоскость, которая отделяет данный набор данных от источника, так что гиперплоскость находится как можно ближе к точкам данных. Обычно ядро RBF используется для подбора нелинейной границы вокруг плотной области набора данных, разделяющей оставшиеся точки как выбросы.

Фактор локального выброса: (обнаружение выбросов на основе расстояния)

Локальный фактор выброса точки говорит о плотности точки по сравнению с плотностью ее соседей. Если плотность точки намного меньше плотности ее соседей, точка находится далеко от плотной области и, следовательно, является выбросом.

Кластеризация для обнаружения выбросов: DBSCAN

Мы можем использовать DBSCAN в качестве алгоритма AD, так как любая точка, не принадлежащая ни одному кластеру, становится выбросом.

DBSCAN требует только два параметра: epsilon и minPoints.

Эпсилон – это радиус круга, который создается вокруг каждой точки данных для проверки плотности.

minPoints – это минимальное количество точек данных, необходимое внутри этого круга, чтобы эта точка данных была классифицирована как основная точка.

Случайным образом выберите точку, которая еще не была отнесена к кластеру или не обозначена как выброс. Определите, является ли это центральной точкой, посмотрев, есть ли вокруг нее по крайней мере точки min_samples в пределах расстояния эпсилон.
Создайте кластер из этой центральной точки и всех точек в пределах эпсилон-расстояния от нее (всех непосредственно достижимых точек).
Найдите все точки, которые находятся в пределах расстояния эпсилон от каждой точки в кластере, и добавьте их в кластер. Найдите все точки, которые находятся в пределах расстояния эпсилон от всех вновь добавленных точек, и добавьте их в кластер. Промыть и повторить. (т. е. выполнить «переходы по окрестностям», чтобы найти все достижимые по плотности точки и добавить их в кластер
Любая случайно выбранная точка, которая не является центральной или пограничной точкой, называется точкой шума или выбросом и не относится ни к какому кластеру. Таким образом, он не содержит по крайней мере min_samples точек, которые находятся в пределах эпсилон-расстояния от него или не находятся в эпсилон-расстоянии от центральной точки.

Могут быть и другие подходы для обнаружения выбросов, однако это некоторые распространенные.

*** Отказ от ответственности: это объединение заметок, собранных из различных веб-источников для быстрого ознакомления ***

Обнаружение аномалий в данных

Вопросы по теме