Хорошие данные обучения для классификации текста LDA?

Я классифицирую контент на основе LDA на общие темы, такие как музыка, технологии, искусство, наука.

Это процесс, который я использую,

9 тем -> Музыка, Технология, Искусство, Наука и т. Д..

9 документов -> Music.txt, Technology.txt, Arts.txt, Science.txt и т. Д.

Я заполнил каждый документ (файл .txt) примерно 10 000 строк содержания, которое я считаю "чистым" категориальным содержанием.

Затем я классифицирую тестовый документ, чтобы увидеть, насколько хорошо обучен классификатор.

Мой вопрос,

а.) Является ли это эффективным способом классификации текста (с помощью описанных выше шагов)?

б.) Где мне искать «чистый» тематический контент, чтобы заполнить каждый из этих файлов? Небольшие источники (текстовые данные> 1 ГБ)

Классификация проводится только по "общим" темам, например, по вышеприведенному

wolfgang5 11.04.2015 источник

comment

Одним из классических бесплатных источников категоризованных документов является Reuters-21578 Text Classification Collection, kdd.ics .uci.edu / databases / reuters21578 / reuters21578.html. Здесь есть ссылки на множество других бесплатных и платных коропор и инструментов НЛП: www-nlp. stanford.edu/links/statnlp.html. - Mike Bessonov 11.04.2015

Ответы (4)

arrow_upward
1
arrow_downward

a) Метод, который вы описываете, звучит хорошо, но все будет зависеть от реализации помеченного LDA, который вы используете. Одна из лучших реализаций, которые я знаю, - это Stanford Topic Modeling Toolbox. Он больше не активно развивается, но он отлично работал, когда я его использовал.

б) Вы можете искать тематический контент в DBPedia, где есть структурированная онтология тем / сущностей и ссылки на Статьи в Википедии по этим темам / организациям.

yvespeirsman 11.04.2015

arrow_upward
1
arrow_downward

Я предлагаю вам использовать набор слов (лук) для каждого урока, который вы используете. Или векторы, где каждый столбец - это частота важных ключевых слов, связанных с классом, на который вы хотите нацелить.

Что касается словарей, у вас есть DBPedia, как указано yves, или WordNet.

jcfgonc 12.04.2015

arrow_upward
0
arrow_downward

а.) Самым простым решением, безусловно, является алгоритм k-ближайших соседей (knn). Фактически, он будет классифицировать новые тексты с категориальным содержанием, используя метрику перекрытия.

Вы можете найти ресурсы здесь: https://github.com/search?utf8=%E2%9C%93&q=knn%20text&type=Repositories&ref=searchresults

Tom A 11.04.2015

arrow_upward
0
arrow_downward

Проблема с набором данных. Если вы имеете дело с классификацией живых каналов пользователей, то я думаю, что ни один набор данных не будет удовлетворять вашим требованиям.

Потому что, если выйдет новый фильм X, он может не попасть в ваш набор классификационных данных, так как обучающий набор данных для него сейчас устарел.

Для классификации, я думаю, чтобы оставаться в курсе последних наборов данных, используйте наборы данных для обучения twitter. Разработайте динамический алгоритм, который обновит классификатор с помощью последних обновленных наборов данных твитов. Вы можете выбрать топ-15-20 хэш-тегов для каждой категории по вашему выбору, чтобы получить наиболее релевантный набор данных для каждой категории.

Классификатор:

В большинстве классификаторов используется модель набора слов, вы можете опробовать различные классификаторы и посмотрите, какой из них дает лучший результат. видеть :

user123 13.04.2015

Хорошие данные обучения для классификации текста LDA?

Ответы (4)

Вопросы по теме