Основные моменты IEEE Big Data 2016: ближайшие соседи, выбросы и глубокое обучение

С 5 по 8 декабря в Вашингтоне проходила международная конференция IEEE по большим данным. Как специалист по данным, работающий в компании Seldon, меня пригласили выступить с основным докладом на семинаре «Достижения в области больших данных большого размера».
В течение этих четырех дней сотни аспирантов и отраслевых экспертов выступили с презентациями о своих последних исследованиях. , создавая уникальную возможность для встречи представителей академических кругов и представителей индустрии.
Вот краткий обзор трех конференций, которые больше всего вызвали отклик у Селдона.

Быстрые K-ближайшие соседи, Вилле Хивонен

K-ближайшие соседи - это набор методов для поиска ближайших соседей точки в наборе данных в соответствии с заданной метрикой (например, евклидовым расстоянием). Эти методы могут применяться для решения проблемы холодного старта рекомендательных систем.
Например, в контексте рекомендаций новостей наиболее широко используемые алгоритмы называются совместной фильтрацией: они смотрят, кто прочитал статью, и рекомендуют это другим пользователям, которые с течением времени разделяли те же интересы. Однако, когда публикуется новая статья, а ее еще никто не читал, этот метод использовать нельзя, и это называется проблемой холодного запуска. Один из способов решить эту проблему - найти наиболее похожую статью с точки зрения содержания и использовать этого ближайшего соседа в качестве прокси для предоставления рекомендаций.
Но текстовые наборы данных очень многомерны, и обычные методы K-ближайших соседей не работают или вычисления становятся трудноразрешимыми. Самый наивный алгоритм - поиск методом перебора - вычисляет расстояние между всеми точками и сортирует их, чтобы найти самые близкие.
Чтобы смягчить это, Вилле Хивонен из университета Хельсинки и его соавторы разработали новую технику для быстрого поиска K-ближайших соседей, которая строится на основе существующих деревьев разделения пространства.
Алгоритм Они предлагают это дерево с множественными случайными проекциями (MRPT) и работает следующим образом:

  • Сначала сгенерируйте набор из N деревьев разделения пространства. Каждый из них создается путем генерации разреженных случайных проекций и разделения набора данных по этим проекциям.
  • Для данной точки данных A найдите ее ближайших соседей в подмножестве, состоящем из точек, которые имеют те же листья, что и A в большинстве деревьев.

Они смогли продемонстрировать, что их метод быстрее, чем современный уровень техники. И все это не только теоретически: один из соавторов, Лян Ван, построил доказательство концепции семантической рекомендательной системы под названием Kvasir, о которой вы можете прочитать на его веб-сайте: http://www.cl.cam.ac .uk / ~ lw525 / kvasir / # .

Обнаружение выбросов с помощью наброска влияния, Джей Луан

Обнаружение выбросов - еще одна область интереса для Селдона. Как вы определяете точки в большом наборе данных, которые были созданы другим распределением? В более общем плане, как определить закономерности в данных, которые не соответствуют ожидаемому поведению? Это имеет множество вариантов использования в широком спектре приложений, таких как кибербезопасность, обнаружение неисправностей и обнаружение мошенничества для кредитных карт или страхование.
В понедельник Джей Луан из Cylance Inc, компании, занимающейся компьютерной безопасностью, представил алгоритм под названием Influence Sketching. Их алгоритм пересматривает меру влияния выборки на основе классической статистики, называемой расстоянием Кука, которая количественно определяет, насколько сильно на результат регрессии повлияет исключение отдельных точек.
Для этого показателя требуется вычисление транспонирования ( X) * X (X - весь ваш набор данных), что становится невозможным для задач большого размера. Добавляя случайные проекции в микс, Джей и его коллеги смогли получить высокопроизводительное приближение к Обобщенному расстоянию Кука. Они получают хорошие результаты, применяя свой алгоритм для выявления неправильной маркировки в области обнаружения вредоносных программ. Учитывая базу данных программных файлов, которые были помечены как вредоносные или безобидные с помощью первого алгоритма, задача состоит в том, чтобы сузить список точек, которые были более подвержены неправильной маркировке для дальнейшего анализа.
Мы считаем, что этот алгоритм имеет большой потенциал для применения в более широких областях.

Рекомендательная система глубокого обучения от Цзяньбо Юаня

В своей статье Цзяньбо Юань и его коллеги решают проблему холодного запуска, используя подход глубокого обучения, чтобы сопоставить новые элементы с существующими. На первом этапе они превращают текстовое содержимое в вектор низкой размерности, используя преобразование (встраивание), которое сохраняет смысл: документы, имеющие аналогичное значение, будут находиться близко в этом пространстве. Затем они могут использовать стандартные методы для поиска ближайшего соседа, например, на основе этих векторов может быть построена матрица сходства для поиска ближайших элементов.
Они использовали doc2vec, современную технику глубокого обучения, для встраивания текста. Они показывают, что их подход значительно превосходит другие методы подобия, такие как TF-IDF и LDA, как по точности, так и по сложности.
Это вызывает у нас большой интерес, поскольку мы проводим собственное исследование глубокого обучения для рекомендаций на основе содержания. В частности, мы только что успешно воспроизвели Спросите ГРУ: многозадачное обучение для рекомендаций по глубокому тексту, в котором используется рекуррентная нейронная сеть для смешивания рекомендаций на основе контента и совместной фильтрации. Похоже, что глубокое обучение скоро найдет новые приложения в области рекомендательных систем, и Селдон намерен стать их частью!

Все эти статьи доступны на Aminer:
- Быстрый поиск ближайшего соседа с помощью разреженных случайных проекций и голосования
- Набросок влияния: поиск влиятельных выборок в крупномасштабных регрессиях »
- Решение проблемы холодного старта в крупномасштабных системах рекомендаций: подход глубокого обучения