На этой неделе я собираюсь прочитать 3 исследовательские работы по обнаружению выбросов.

Об обнаружении кластерных аномалий с помощью SCiForest

Авторы: Фей Тони Лю, Кай Мин Тин и Чжи-Хуа Чжоу

Место проведения: ECML PKDD 2010: Машинное обучение и обнаружение знаний в базах данных

Бумага : URL

Абстрактный:

Обнаружение локальных кластерных аномалий является сложной задачей для многих существующих методов обнаружения аномалий. Методы, основанные на расстоянии и плотности, по своей сути ограничены своими основными предположениями — аномалии либо далеки от нормальных точек, либо разрежены. Кластерные аномалии могут избежать обнаружения, поскольку они бросают вызов этим предположениям, будучи плотными и, во многих случаях, в непосредственной близости от нормальных экземпляров. В этой статье, без использования какой-либо меры плотности или расстояния, мы предлагаем новый метод под названием SCiForest для обнаружения кластерных аномалий. SCiForest эффективно отделяет сгруппированные аномалии от нормальных точек, даже если сгруппированные аномалии очень близки к нормальным точкам. Он сохраняет способность существующих методов обнаруживать разбросанные аномалии и имеет более высокую временную и пространственную сложность по сравнению с существующими методами, основанными на расстоянии и плотности.

Улучшение iForest с помощью относительной массы

Авторы: Сунил Арьял, Кай Минг Тинг, Джонатан Р. Уэллс и Такаши Васио.

Место проведения: PAKDD 2014 — Достижения в области обнаружения знаний и интеллектуального анализа данных

Бумага: URL

Абстрактный:

iForest использует набор деревьев изоляции для обнаружения аномалий. Хотя он эффективен при обнаружении глобальных аномалий, он не может обнаружить локальные аномалии в наборах данных, содержащих несколько кластеров нормальных экземпляров, поскольку локальные аномалии маскируются нормальными кластерами аналогичной плотности и становятся менее восприимчивыми к изоляции. В этой статье мы предлагаем очень простое, но эффективное решение для преодоления этого ограничения путем замены меры глобального ранжирования, основанной на длине пути, мерой локального ранжирования, основанной на относительной массе, которая учитывает локальное распределение данных. Мы демонстрируем полезность относительной массы, улучшая производительность iForest для конкретных задач в задачах обнаружения аномалий и поиска информации.

LiNearN: новый подход к оценке плотности ближайших соседей

Авторы:

Место проведения: Распознавание образов

Бумага: URL

Аннотация: Джонатан Р. Уэллс, Кай Мин Тинг и Такаси Васио

Несмотря на широкое распространение, методы оценки плотности ближайших соседей имеют два фундаментальных ограничения: временная сложность и O(n) пространственная сложность. Оба ограничения ограничивают оценку плотности ближайших соседей только небольшими наборами данных. Недавний прогресс с использованием схем индексации улучшился только до почти линейной временной сложности.

Мы предлагаем новый подход, называемый LiNearN для алгоритма Liближнего времени Nearest Nneighbour, который дает первое насколько нам известно, оценка плотности ближайшего соседа имеет O(n) временную сложность и постоянную пространственную сложность. Это достигается без использования какой-либо схемы индексации, поскольку LiNearN использует метод подвыборки, при котором значения подвыборки значительно меньше размера данных. Как и существующие оценщики плотности, наш асимптотический анализ показывает, что новый оценщик плотности имеет параметр для компромисса между смещением и дисперсией. Мы показываем, что алгоритмы, основанные на новой оценке плотности ближайших соседей, могут легко масштабироваться до наборов данных с миллионами экземпляров в задачах обнаружения аномалий и кластеризации.

Это все на этой неделе. Оставайтесь с нами для сообщения в блоге по резюме моего чтения.

Списки чтения за предыдущие недели:

Список чтения на неделю №1

Обо мне:

Я Дургеш Самария, аспирант 3-го года обучения в области машинного обучения в FedUni, Австралия. В Интернете я известен как TheMLPhDStudent.

Подпишитесь на мою рассылку для моих еженедельных фрагментов.

Социальные медиа

Следите за мной в Facebook, Instagram, Twitter и Medium.

Спасибо за чтение.