Рекомендуемое количество слов в Mallet

Я пытаюсь смоделировать topcis с помощью Mallet. Я неоднократно встречал заявления в блогах и исследовательских работах, рекомендующие ограничить количество слов в документе — в большинстве случаев около 1000 слов. То, что LDA требует минимального количества слов, понятно, конечно. Однако правда ли, что есть техническая причина рекомендовать разбивать большие документы на более мелкие? Мои документы варьируются от 5 до 20 тысяч слов. Было бы лучше разделить документ размером 5 КБ на несколько документов?

Спасибо заранее!


person Glorifier    schedule 12.03.2021    source источник


Ответы (1)


Есть несколько причин для разделения длинных документов на более мелкие фрагменты.

Интуитивная причина, однако, заключается в том, что более длинные документы с большей вероятностью будут созданы из большего количества тем. Вы, конечно, можете настроить свои параметры для учета этого, но мы знаем, что слова, которые появляются рядом друг с другом, с большей вероятностью относятся к той же теме, что и слова, которые появляются дальше (даже в пределах одного документа) друг от друга. Мы можем учесть это расстояние, разбивая большие документы. Думайте об этом как о разделении книги на главы вместо того, чтобы помещать всю книгу в модель.

Существует также вычислительная причина разделения документов на более мелкие фрагменты. Это связано с относительными вычислительными затратами на создание более длинного документа по сравнению со стоимостью создания нескольких более коротких, а также на аппроксимацию темы для более длинного документа по сравнению с более коротким. Я не помню математики навскидку, но обычно быстрее запускать модель на 1 000 000 документов по 100 слов каждый, чем на 100 000 документов по 1000 слов каждый.

person rchurch4    schedule 14.03.2021
comment
Большое спасибо за ваш комментарий! Я, безусловно, понимаю вашу точку зрения относительно корреляции между длиной документа и количеством тем. Моя база данных полностью состоит из комментариев Facebook, но я мог бы сократить временные рамки для каждого документа (меньше комментариев = более короткий документ) и тем самым ограничить размер документа. Мне все равно придется посмотреть, где я окажусь по теме. Я начну с 10, а затем посмотрю, для какого числа я получу наилучшие результаты. Ваше здоровье - person Glorifier; 15.03.2021