1. Вычислительный анализ дрейфа высоты тона при сольном пении без аккомпанемента с использованием кластеризации DBSCAN (arXiv)

Автор:Сепидех Шафии, С. Хакам

Вывод:вокалисты без аккомпанемента обычно непреднамеренно меняют строй и в результате получают более высокий или более низкий тон, чем начальная точка, во время продолжительного выступления. Это явление называется дрейфом высоты тона и зависит от различных элементов, таких как мастерство исполнителя, продолжительность и сложность исполнения. В этой статье мы предлагаем вычислительный метод измерения дрейфа высоты тона во время вокального исполнения без аккомпанемента с использованием гистограммы высоты тона и кластеризации DBSCAN.

2. IPD: основанный на инкрементальном прототипе DBSCAN для крупномасштабных данных с представителями кластера (arXiv)

Автор: Джаясри Саха, Джайанта Мукерджи

Вывод:DBSCAN — это фундаментальный метод кластеризации на основе плотности, который идентифицирует любую произвольную форму кластеров. Однако это становится невозможным при работе с большими данными. С другой стороны, кластеризация на основе центроидов важна для обнаружения закономерностей в наборе данных, поскольку необработанные точки данных могут быть помечены до их ближайшего центроида. Однако он не может обнаруживать несферические кластеры. Для больших данных невозможно хранить и вычислять метки каждой выборки. Это может быть сделано по мере необходимости информации. Цель может быть достигнута, когда кластеризация действует как инструмент для идентификации представителей кластера, а запрос обслуживается путем присвоения меток кластера ближайшему представителю. В этой статье мы предлагаем алгоритм DBSCAN (IPD) на основе инкрементного прототипа, который предназначен для идентификации кластеров произвольной формы для крупномасштабных данных. Кроме того, он выбирает набор представителей для каждого кластера.

3. Быстрые древовидные алгоритмы для DBSCAN на графических процессорах (arXiv)

Автор :Андрей Прокопенко, Дэмиен Лебрен-Гранди, Даниэль Арндт

Выдержка:DBSCAN — это хорошо известный алгоритм кластеризации на основе плотности для обнаружения кластеров произвольной формы. Попытки распараллелить алгоритм на графических процессорах часто страдают от большого расхождения при выполнении потоков (например, из-за асинхронных вызовов запросов диапазона). В этой статье мы предлагаем новую общую структуру для DBSCAN на графических процессорах и предлагаем два древовидных алгоритма в рамках этой структуры. Оба алгоритма объединяют поиск соседей с обновлением информации о кластеризации и различаются обработкой плотных областей данных. Мы показываем, что стоимость вычислительных кластеров не более чем в два раза превышает стоимость параллельного определения соседей. Мы сравниваем предложенные алгоритмы с существующими реализациями GPU и демонстрируем их конкурентоспособность и отличную производительность при наличии структуры быстрого обхода (иерархии ограничивающих объемов). Кроме того, мы показываем, что использование памяти может быть уменьшено за счет обработки соседей объекта на лету без их сохранения.

4. Защита SVM от атак отравления: сложность и подход DBSCANApproach(arXiv)

Автор:Ху Дин, Фань Ян, Цзявэй Хуан

Аннотация. В последние годы состязательное машинное обучение привлекло большое внимание. В атаке с отравлением злоумышленник может ввести небольшое количество специально созданных выборок в обучающие данные, что сильно отклонит границу решения и вызовет неожиданную ошибочную классификацию. Из-за большой важности и популярного использования машин опорных векторов (SVM) в этой статье мы рассматриваем защиту SVM от атак отравления. Мы изучаем две часто используемые стратегии защиты: разработку надежных алгоритмов SVM и очистку данных. Хотя ранее было предложено несколько надежных алгоритмов SVM, большинству из них либо не хватает устойчивости к состязательным действиям, либо они основаны на строгих предположениях о распределении данных или поведении злоумышленника. Кроме того, исследования их сложности все еще весьма ограничены. Мы первые, насколько нам известно, кто доказал, что даже простейшая одноклассовая SVM с жесткими маржами и проблемой выбросов является NP-полной и не имеет полностью PTAS, если только P=NP (это означает, что трудно достичь даже приближенный алгоритм). Для защиты санации данных мы связываем ее с внутренней размерностью данных; в частности, мы предоставляем теорему выборки в удвоении метрик для объяснения эффективности DBSCAN (как метода удаления выбросов на основе плотности) для защиты от отравления атак. В наших эмпирических экспериментах мы сравниваем несколько средств защиты, включая DBSCAN и надежные методы SVM, и исследуем влияние внутренней размерности и плотности данных на их характеристики.