"Машинное обучение"
Список для чтения еженедельной исследовательской работы по машинному обучению - № 6
На этой неделе (9.07.2020–13.09.2020) ознакомьтесь со следующими 3 исследовательскими работами.
4S: масштабируемая схема поиска подпространства, преодолевающая традиционную априорную обработку
Авторы: Хоанг Ву Нгуен, Эммануэль Мюллер и Клеменс Бём.
Место проведения: Международная конференция IEEE по большим данным, 2013 г.
Бумага: URL
Абстрактный:
Во многих реальных приложениях данные собираются в многомерных пространствах. Однако не все параметры актуальны для анализа данных. Вместо этого интересные знания скрыты в коррелированных подмножествах измерений (то есть подпространствах исходного пространства). Обнаружение этих коррелированных подпространств независимо от основной задачи интеллектуального анализа данных - открытая исследовательская проблема. Это сложно из-за экспоненциального пространства поиска. Существующие методы пытались решить эту проблему, используя схемы поиска Apriori. Однако они показывают плохую масштабируемость и пропускают высококачественные подпространства. В этой статье представлена масштабируемая схема поиска подпространств (4S), которая преодолевает проблему эффективности за счет отхода от традиционного поэтапного поиска. Мы предлагаем новое обобщенное понятие коррелированных подпространств, которое позволяет преобразовать пространство поиска в корреляционный граф измерений. Затем мы выполняем прямой анализ коррелированных подпространств в графе. Наконец, мы объединяем подпространства на основе принципа MDL и получаем подпространства большой размерности с минимальной избыточностью. Мы теоретически показываем, что наша схема поиска является более общей, чем существующие схемы поиска, и имеет значительно меньшую временную сложность. Наши эксперименты показывают, что 4S масштабируется почти линейно в зависимости от размера и размерности базы данных и дает более качественные подпространства, чем современные методы.
Ранжирование выбросов с помощью анализа подпространств в нескольких представлениях данных
Авторы: Эммануэль Мюллер, Ира Ассент, Патрисия Иглесиас, Ивонн Мюлле и Клеменс Бём
Место проведения: 12-я Международная конференция IEEE по интеллектуальному анализу данных (ICDM), 2012 г.
Бумага: URL
Абстрактный:
Извлечение выбросов - важная задача для поиска аномальных объектов. На практике, однако, не всегда существует четкое различие между выбросами и обычными объектами, поскольку объекты имеют разные роли относительно. разные наборы атрибутов. Объект может отклоняться в одном подпространстве, то есть в подмножестве атрибутов. И тот же объект может казаться совершенно правильным в других подпространствах. Можно думать о подпространствах как о нескольких представлениях в одной базе данных. Традиционные методы рассматривают только одно представление (все пространство атрибутов). Таким образом, они пропускают сложные выбросы, которые скрыты в нескольких подпространствах. В этой работе мы предлагаем Outrank, новую концепцию ранжирования выбросов. Outrank использует анализ подпространства для определения степени выброса. Он рассматривает различные подмножества атрибутов как отдельные свойства выбросов. Он сравнивает сгруппированные регионы в произвольных подпространствах и выводит оценку выбросов для каждого объекта. Его принципиальная интеграция нескольких представлений в меру выбросов выявляет выбросы, которые не обнаруживаются в полном пространстве атрибутов. Наша экспериментальная оценка показывает, что Outrank успешно определяет высокий рейтинг выбросов и превосходит современные методы измерения выбросов.
Схема поиска в подпространстве, близком к линейному, для неконтролируемого выбора коррелированных объектов
Авторы: Хоанг-Ву Нгуен, Эммануэль Мюллер и Клеменс Бём.
Место проведения: Исследование больших данных
Бумага: URL
Абстрактный:
Во многих реальных приложениях данные собираются в многомерных пространствах. Однако не все параметры актуальны для анализа данных. Вместо этого интересные знания скрыты в коррелированных подмножествах измерений (то есть подпространствах исходного пространства). Обнаружение этих коррелированных подпространств независимо от основной задачи интеллектуального анализа данных - открытая исследовательская проблема. Это сложно из-за экспоненциального пространства поиска. Существующие методы пытались решить эту проблему, используя схемы поиска Apriori. Однако сложность их наихудшего случая экспоненциальна по количеству измерений; и даже на практике они демонстрируют плохую масштабируемость при отсутствии высококачественных подпространств.
В этой статье представлена масштабируемая схема поиска подпространств (4S), которая преодолевает проблему эффективности за счет отхода от традиционного поэтапного поиска. Мы предлагаем новое обобщенное понятие коррелированных подпространств, которое позволяет преобразовать пространство поиска в корреляционный граф измерений. Мы выполняем прямой анализ коррелированных подпространств в этом графе, а затем объединяем подпространства на основе принципа MDL, чтобы получить подпространства большой размерности с минимальной избыточностью. Мы теоретически показываем, что наша схема поиска более общая, чем существующие схемы поиска. Наши эмпирические результаты показывают, что 4S на практике масштабируется почти линейно в зависимости от размера и размерности базы данных и дает более качественные подпространства, чем современные методы.
Списки чтения за предыдущие недели:
Обо мне:
Я Дургеш Самария, 3-й курс доктора философии по машинному обучению. студент FedUni, Австралия. В Интернете я известен как TheMLPhDStudent.
Подпишитесь на мою рассылку, чтобы получать мои еженедельные отрывки.
В интернете:
Подписывайтесь на меня в Instagram, Kaggle, GitHub и Medium.
Спасибо за чтение.