LDA (скрытая ассоциация Дирихле) для не статистиков.

Это сложно понять с самого начала. Я нашел хороший источник для изучения, и здесь я перевожу его в более простую версию истории.

Вы сможете лучше понять мою статью только после того, как потеряетесь в математике статей LDA. Я намеренно не буду использовать какую-то одну формулу.

А теперь забудьте о приведенном ниже графическом описании. График можно прочитать только после того, как вы полностью поймете историю LDA.

Итак, перейдем к истории.

LDA - это модельный подход. В отличие от глубокого обучения, здесь у нас есть модель. Статистическая модель.
Эта модель является своего рода движком, который генерирует (или создает) документы в гипотетическом мире. (это не настоящий документ, но наши настоящие документы напоминают эти гипотетические документы)
Как и другие статистические модели. Мы также предполагаем распределение здесь. Это просто ненормальное распределение. Скорее, здесь нам нужно знать распределение Дирихле (нам не нужно знать математические основы).
Само распределение Дирихле является образцом другого распределения. Итак, всякий раз, когда вы берете образец из распределения Дирихле, вы получаете распределение. Это распределение является полиномиальным распределением. Полиномиальное распределение - это всего лишь мультиверсия биномиального распределения. (т.е. выборка игральных костей)
А теперь вернемся к нашей модели. Наша модель (или движок) генерирует документы, содержащие много слов. Каждый документ связан с определенной темой (или темами). Мы знаем только, с какими темами документ связан полиномиальным распределением.
Это полиномиальное распределение является образцом распределения Дирихле.

Думаю, на этом этапе нам нужно сделать перерыв. Давайте взглянем. Каждый документ связан с определенными темами с распределением вероятностей (функцией массы вероятностей). Поскольку наше наблюдение представляет собой словарь слов в документе, мы можем связывать темы только для каждого слова. Итак, мы делаем этот процесс для каждого слова в документе. Вот почему нам нужен процесс выборки с использованием распределения Дирихле. Мы берем образец полиномиального распределения из распределения Дирихле, чтобы получить еще один образец (слово), пока мы не дойдем до конца документа.

7. То, как мы создаем или генерируем слово из данной темы для каждой позиции слова, абсолютно одинаково. Для этого слова нам понадобится еще один образец полиномиального распределения. Мы снова получаем это распределение из распределения Дирихле. Забудьте пока об альфа- и гамма-параметрах. Просто помните, что нам нужны два образца дистрибутива для тем и слов, потому что LDA - это двухэтапный процесс.

8. Наконец, из процесса создания слов с использованием двухэтапных гипотетических документов. Этот документ имеет смысл только тогда, когда у нас есть хорошая модель (хотя этот гипотетический документ не создает удобочитаемых предложений, слова внутри документа позволяют людям угадывать, в чем состоит тема (или темы))

9. Сейчас! Мы выведем каждый параметр (альфа, гамма) распределения Дирихле, чтобы это распределение Дирихле показало достойное полиномиальное распределение для темы и слова, которое напоминает наши настоящие текстовые документы (корпус).

Этот вывод включает процесс MCMC или VEM (см. Видео по ссылке)

10. Наконец, теперь мы можем рассчитать вероятность того, что тема задана для документа со словом (предложения с реальным словом), используя нашу модель. (Наша модель состоит из двух распределений Дирихле.)

- эта часть немного сложна, если вы не знакомы с байесовским выводом. просто чтобы помнить, что нам нужно рассчитать вероятность того, что тема пропорциональна всем словам в документе.

Тада!

Вы можете вернуться к диаграмме (графическая модель, которую вы видите повсюду) и попробовать прочитать ее сейчас.

LDA (скрытая ассоциация Дирихле) для не статистиков.

Вопросы по теме