"Машинное обучение"

Список для чтения еженедельной исследовательской работы по машинному обучению - № 6

На этой неделе (9.07.2020–13.09.2020) ознакомьтесь со следующими 3 исследовательскими работами.

4S: масштабируемая схема поиска подпространства, преодолевающая традиционную априорную обработку

Авторы: Хоанг Ву Нгуен, Эммануэль Мюллер и Клеменс Бём.

Место проведения: Международная конференция IEEE по большим данным, 2013 г.

Бумага: URL

Абстрактный:

Во многих реальных приложениях данные собираются в многомерных пространствах. Однако не все параметры актуальны для анализа данных. Вместо этого интересные знания скрыты в коррелированных подмножествах измерений (то есть подпространствах исходного пространства). Обнаружение этих коррелированных подпространств независимо от основной задачи интеллектуального анализа данных - открытая исследовательская проблема. Это сложно из-за экспоненциального пространства поиска. Существующие методы пытались решить эту проблему, используя схемы поиска Apriori. Однако они показывают плохую масштабируемость и пропускают высококачественные подпространства. В этой статье представлена ​​масштабируемая схема поиска подпространств (4S), которая преодолевает проблему эффективности за счет отхода от традиционного поэтапного поиска. Мы предлагаем новое обобщенное понятие коррелированных подпространств, которое позволяет преобразовать пространство поиска в корреляционный граф измерений. Затем мы выполняем прямой анализ коррелированных подпространств в графе. Наконец, мы объединяем подпространства на основе принципа MDL и получаем подпространства большой размерности с минимальной избыточностью. Мы теоретически показываем, что наша схема поиска является более общей, чем существующие схемы поиска, и имеет значительно меньшую временную сложность. Наши эксперименты показывают, что 4S масштабируется почти линейно в зависимости от размера и размерности базы данных и дает более качественные подпространства, чем современные методы.

Ранжирование выбросов с помощью анализа подпространств в нескольких представлениях данных

Авторы: Эммануэль Мюллер, Ира Ассент, Патрисия Иглесиас, Ивонн Мюлле и Клеменс Бём

Место проведения: 12-я Международная конференция IEEE по интеллектуальному анализу данных (ICDM), 2012 г.

Бумага: URL

Абстрактный:

Извлечение выбросов - важная задача для поиска аномальных объектов. На практике, однако, не всегда существует четкое различие между выбросами и обычными объектами, поскольку объекты имеют разные роли относительно. разные наборы атрибутов. Объект может отклоняться в одном подпространстве, то есть в подмножестве атрибутов. И тот же объект может казаться совершенно правильным в других подпространствах. Можно думать о подпространствах как о нескольких представлениях в одной базе данных. Традиционные методы рассматривают только одно представление (все пространство атрибутов). Таким образом, они пропускают сложные выбросы, которые скрыты в нескольких подпространствах. В этой работе мы предлагаем Outrank, новую концепцию ранжирования выбросов. Outrank использует анализ подпространства для определения степени выброса. Он рассматривает различные подмножества атрибутов как отдельные свойства выбросов. Он сравнивает сгруппированные регионы в произвольных подпространствах и выводит оценку выбросов для каждого объекта. Его принципиальная интеграция нескольких представлений в меру выбросов выявляет выбросы, которые не обнаруживаются в полном пространстве атрибутов. Наша экспериментальная оценка показывает, что Outrank успешно определяет высокий рейтинг выбросов и превосходит современные методы измерения выбросов.

Схема поиска в подпространстве, близком к линейному, для неконтролируемого выбора коррелированных объектов

Авторы: Хоанг-Ву Нгуен, Эммануэль Мюллер и Клеменс Бём.

Место проведения: Исследование больших данных

Бумага: URL

Абстрактный:

Во многих реальных приложениях данные собираются в многомерных пространствах. Однако не все параметры актуальны для анализа данных. Вместо этого интересные знания скрыты в коррелированных подмножествах измерений (то есть подпространствах исходного пространства). Обнаружение этих коррелированных подпространств независимо от основной задачи интеллектуального анализа данных - открытая исследовательская проблема. Это сложно из-за экспоненциального пространства поиска. Существующие методы пытались решить эту проблему, используя схемы поиска Apriori. Однако сложность их наихудшего случая экспоненциальна по количеству измерений; и даже на практике они демонстрируют плохую масштабируемость при отсутствии высококачественных подпространств.

В этой статье представлена ​​масштабируемая схема поиска подпространств (4S), которая преодолевает проблему эффективности за счет отхода от традиционного поэтапного поиска. Мы предлагаем новое обобщенное понятие коррелированных подпространств, которое позволяет преобразовать пространство поиска в корреляционный граф измерений. Мы выполняем прямой анализ коррелированных подпространств в этом графе, а затем объединяем подпространства на основе принципа MDL, чтобы получить подпространства большой размерности с минимальной избыточностью. Мы теоретически показываем, что наша схема поиска более общая, чем существующие схемы поиска. Наши эмпирические результаты показывают, что 4S на практике масштабируется почти линейно в зависимости от размера и размерности базы данных и дает более качественные подпространства, чем современные методы.

Списки чтения за предыдущие недели:

Еженедельный список чтения №1

Еженедельный список чтения №2

Еженедельный список чтения №3

Еженедельный список чтения №4

Еженедельный список чтения №5

Обо мне:

Я Дургеш Самария, 3-й курс доктора философии по машинному обучению. студент FedUni, Австралия. В Интернете я известен как TheMLPhDStudent.

Подпишитесь на мою рассылку, чтобы получать мои еженедельные отрывки.

В интернете:

Подписывайтесь на меня в Instagram, Kaggle, GitHub и Medium.

Спасибо за чтение.