Объединение LDA и вложений Word для моделирования тем

Скрытое распределение Дирихле (LDA) - классический способ моделирования темы. Тематическое моделирование - это обучение без учителя, цель которого состоит в том, чтобы сгруппировать разные документы по одной и той же теме.

Типичный пример - кластеризация новостей по соответствующим категориям, включая «Финансы», «Путешествия», «Спорт» и т. Д. Перед встраиванием слов мы большую часть времени можем использовать «Сумку слов». Однако мир изменился после того, как Миколов и др. представьте word2vec (один из примеров встраивания слов) в 2013 году. Moody анонсировало lda2vec, который объединяет LDA и встраивания слов вместе для решения проблемы моделирования тем.

Прочитав эту статью, вы поймете:

Скрытое распределение Дирихле (LDA)
Вложения слов
lda2vec

Скрытое распределение Дирихле (LDA)

LDA известна в области тематического моделирования. Кластеризация документов на основе использования слов. Чтобы упростить задачу, LDA использует Bag-of-Words как функцию для кластеризации. За подробностями вы можете заглянуть в этот блог.

Вложения слов

Цель встраивания слов - разрешить разреженные и многомерные особенности в задачах НЛП. Имея вложения слов (или векторы), мы можем использовать небольшие размерности (в большинстве случаев это 50 или 300) для представления всех слов. За подробностями вы можете заглянуть в этот блог.

lda2vec

lda2vec включает 2 части: вектор слова и вектор документа для предсказания слов, так что все векторы обучаются одновременно. Он строит вектор слов по модели пропуска грамм. Короче говоря, он использует целевые слова, чтобы предсказать окружающие слова, чтобы узнать вектор. Вторая часть - это вектор документа, который прочесывается

вектор веса документа: вес каждой темы. Использование softmax для преобразования веса в проценты.
Матрица тем: вектор темы. Один столбец относится к одной теме, а в строке хранятся близлежащие связанные слова по каждой теме.

Формула вектора документа:

dj: вектор документа j
pj0: вес j документа в теме «0»
pjn: вес j документа в теме «n»
t0: Вектор темы «0»
tn: вектор темы «n»

Вес документов разный, в то время как векторы тем являются общими. Более подробную информацию вы можете найти в оригинальном блоге Moody’s.

Забрать

Исходный код можно найти в этой записной книжке.

Как предложили авторы, вы должны использовать LDA, если хотите, чтобы темы были удобочитаемы. Вы можете попробовать lda2vec, если хотите по-другому переработать оптическую модель или предсказать темы по пользователям.

Обо мне

Я специалист по анализу данных в Bay Area. Сосредоточение внимания на последних достижениях науки о данных, искусственного интеллекта, особенно в области НЛП и связанных с ними платформ. Вы можете связаться со мной из Medium Blog, LinkedIn или Github.

Ссылка

Муди Кристофер. Смешивание тематических моделей Дирихле и вложения слов для создания lda2vec. 2016. https://arxiv.org/pdf/1605.02019.pdf