Это введение в использование Z-показателя и модифицированного Z-показателя для обнаружения аномалий.

Сначала давайте кратко введем z-оценку и почему нам действительно нужна модифицированная z-оценка.

Z-оценка — это распространенный метод оценки аномалий в одномерных данных. Если известны среднее значение и стандартное отклонение, то для каждой точки данных

мы рассчитываем z-оценку как:

Z-показатель измеряет, насколько далеко точка отстоит от среднего значения, кратное стандартному отклонению со знаком, а большие абсолютные значения z-показателя указывают на аномалию.

Теперь давайте посмотрим на набор данных, который показывает ограничения z-показателей и то, почему модифицированный z-показатель может быть полезен.

Мы рассмотрим количество голов, забитых лучшим бомбардиром на каждом чемпионате мира с 1930 по 2018 год (всего 21 соревнование). Исходные данные отсюда:



Данные были очищены и сохранены в формате CSV. Загрузите его как фрейм данных и посмотрите.



Мы начнем с использования z-оценки для выявления аномалий. Поскольку нас интересуют суперзвезды, у нас будет верхний порог. Мы выбираем 𝑧 =+2. Выше этого z-показателя любой игрок будет помечен как аномалия.

Теперь давайте определим функцию построения графика для отображения результата:

Выбирается только один игрок: Просто Фонтейн.

Очевидно, что наш анализ ошибочен. Глядя на график, мы видим, что в 12 из 21 соревнований лучшие бомбардиры забили меньше среднего количества голов (7,05).

Вот и возникает вопрос почему так?

Ответ таков: среднее значение и стандартное отклонение сами по себе подвержены влиянию аномалий. Невероятный Фонтейн, забив 13 голов, поднял среднее значение настолько, что большинство игроков опустились ниже него. В результате он становится единственной аномалией.

И из-за этого z-оценка иногда может быть ненадежной, поскольку среднее значение и стандартное отклонение сами по себе чувствительны к аномалиям.

модифицированный z-показатель решает эту проблему, используя вместо этого медианы:

MAD означает среднеесреднее значение, абсолютноеабсолютное отклонение от медианы.

Следовательно, в случае модифицированного Z-показателя большие абсолютные значения модифицированного z-показателя указывают на аномалию.

Давайте повторим этот анализ с модифицированным z-показателем и посмотрим, что произойдет.

Обратите внимание, что медиана (6,0) ниже среднего (7,05), как и следовало ожидать от графика.

Здесь мы собираемся внести небольшую модификацию и ввести согласованность поправку k, которая позволяет нам использовать MAD в качестве согласованной оценки стандартного отклонения. Значение k зависит от основного распределения данных. Для простоты мы будем использовать k=1,4826.

(см.: https://en.wikipedia.org/wiki/Median_absolute_deviation)

Таким образом, модифицированный z-показатель становится

и это форма, которую мы будем использовать в функции ниже.

Как и раньше, вычислите модифицированный z-показатель для всех игроков, затем постройте график и запишите результаты. Обратите внимание, что порог остается прежним и составляет y=+2.

Теперь мы находим четырех аномальных игроков.

Так как же MAD соотносится со стандартным отклонением, рассчитанным ранее?

k*MAD составляет 1,48, что меньше стандартного отклонения (2,05). Мы видим, что аномалии больше влияют на стандартное отклонение, которое зависит от квадрата отклонения от среднего (MAD линейно зависит от отклонения).

Код, использованный в этой статье, можно найти на github:



Для любого запроса, пожалуйста, оставьте комментарий ниже. Любые дальнейшие предложения приветствуются.