Я пытаюсь смоделировать topcis с помощью Mallet. Я неоднократно встречал заявления в блогах и исследовательских работах, рекомендующие ограничить количество слов в документе — в большинстве случаев около 1000 слов. То, что LDA требует минимального количества слов, понятно, конечно. Однако правда ли, что есть техническая причина рекомендовать разбивать большие документы на более мелкие? Мои документы варьируются от 5 до 20 тысяч слов. Было бы лучше разделить документ размером 5 КБ на несколько документов?
Спасибо заранее!