Тематическое моделирование с помощью LDA

Что такое тематическое моделирование?

Тематическое моделирование — это тип статистического моделирования, который используется для выявления «тем» путем изучения, извлечения и распознавания значения слов, предложений, абзацев и документов в данной коллекции или корпусе.

Что такое ЛДА?

Чтобы определить темы, которые лучше всего описывают документ, нам нужно следовать некоторым приемам. LDA (Скрытое распределение Дирихле) — это один из методов моделирования, который мы используем для классификации документов, что позволяет лучше понять документ.

Приложения

Тематическое моделирование находит применение во многих сферах. Вот несколько примеров:

Анализ настроений
Прогноз и интерпретация социальной активности
Персонализация поиска

LDA – это один из наиболее широко используемых методов тематического моделирования наряду с LSA, PLSA, tBERT, NMF и lda2vec.

Скрытое распределение Дирихле (LDA)

LDA — это статистическая генеративная модель, в которой используются распределения Дирихле. Мы начинаем с корпуса из M документов и выбираем K темы, которые мы хотим открыть из этого корпуса. Результатом будет тематическая модель с M документами, выраженными как K тем.

Распределение Дирихле — это способ моделирования функции массы вероятности, которая дает вероятности для дискретных случайных величин.
- Из распределения Дирихле 𝐷𝑖𝑟(α) мы берем случайную выборку, представляющую распределение тем конкретного документа. Распределение этой темы равно θ. Из θ выбираем конкретную тему Z на основе распределения.
— Из другого распределения дирихле 𝐷𝑖𝑟(𝛽) мы выбираем случайную выборку, представляющую распределение слов темы Z. Это распределение слов — φ. Из φ выбираем слово 𝑤.

Короче говоря, этот алгоритм находит вес связей между темами и документами, а также темами и словами.

СОЗДАНИЕ НОВЫХ ДОКУМЕНТОВ:

LDA — это генеративная модель, поэтому она способна создавать новые документы. Но, поскольку это статистическая модель, лучше иметь в виду, что сгенерированный документ не будет иметь смысла с семантической точки зрения.

ПОНИМАНИЕ ТЕМ:

Как мы представляем найденные K темы? LDA произведет распределение тем по словам. Анализируя распределение, мы можем выделить наиболее часто встречающиеся слова.

Например:
Пусть K=4 и слова:
V = {футбол, мяч, пианино, лазер, компьютер, рецессия, доллар

Пусть полученное распределение будет следующим:
Тема 1 : [0,0, 0,1, 0,0, 0,55, 0,35, 0,0, 0,0]< br /> Тема 2 : [0,4, 0,4, 0,0, 0,0, 0,0, 0,2, 0,0]
Тема 3 : [0.0, 0.0, 0.9, 0.0, 0.0, 0.1, 0.0]
Тема 4 : [0,0, 0,0, 0,0, 0,0, 0,1, 0,5, 0,4]

Расшифровав дистрибутив, получаем:

Тема 1 .Здесь чаще всего встречаются слова лазер и компьютер, так что это, вероятно, связано с технология или наука.

Тема 2 .Самые часто встречающиеся слова здесь – футбол и мяч, так что это, вероятно, связано с спорт.

Тема 3.Самое часто встречающееся здесь слово – фортепиано, так что это, вероятно, связано с музыкой.

Тема 4 .Здесь чаще всего встречаются слова рецессия и доллар, так что это, вероятно, связано с экономика.

ВЫВОД

Тематическое моделирование можно описать как метод поиска группы слов из коллекции документов, которая представляет информацию о коллекции. Это помогает обнаруживать скрытые шаблоны с точки зрения тем, аннотировать документы в соответствии с этими темами и, наконец, использовать эти аннотации для поиска и обобщения текстов.

ССЫЛКИ:
- Материалы курса AlmaBetter
- kdnuggets
- Контент с YouTube