Хорошие данные обучения для классификации текста LDA?

Я классифицирую контент на основе LDA на общие темы, такие как музыка, технологии, искусство, наука.

Это процесс, который я использую,

9 тем -> Музыка, Технология, Искусство, Наука и т. Д..

9 документов -> Music.txt, Technology.txt, Arts.txt, Science.txt и т. Д.

Я заполнил каждый документ (файл .txt) примерно 10 000 строк содержания, которое я считаю "чистым" категориальным содержанием.

Затем я классифицирую тестовый документ, чтобы увидеть, насколько хорошо обучен классификатор.

Мой вопрос,

а.) Является ли это эффективным способом классификации текста (с помощью описанных выше шагов)?

б.) Где мне искать «чистый» тематический контент, чтобы заполнить каждый из этих файлов? Небольшие источники (текстовые данные> 1 ГБ)

Классификация проводится только по "общим" темам, например, по вышеприведенному


person wolfgang5    schedule 11.04.2015    source источник
comment
Одним из классических бесплатных источников категоризованных документов является Reuters-21578 Text Classification Collection, kdd.ics .uci.edu / databases / reuters21578 / reuters21578.html. Здесь есть ссылки на множество других бесплатных и платных коропор и инструментов НЛП: www-nlp. stanford.edu/links/statnlp.html.   -  person Mike Bessonov    schedule 11.04.2015


Ответы (4)


a) Метод, который вы описываете, звучит хорошо, но все будет зависеть от реализации помеченного LDA, который вы используете. Одна из лучших реализаций, которые я знаю, - это Stanford Topic Modeling Toolbox. Он больше не активно развивается, но он отлично работал, когда я его использовал.

б) Вы можете искать тематический контент в DBPedia, где есть структурированная онтология тем / сущностей и ссылки на Статьи в Википедии по этим темам / организациям.

person yvespeirsman    schedule 11.04.2015

Я предлагаю вам использовать набор слов (лук) для каждого урока, который вы используете. Или векторы, где каждый столбец - это частота важных ключевых слов, связанных с классом, на который вы хотите нацелить.

Что касается словарей, у вас есть DBPedia, как указано yves, или WordNet.

person jcfgonc    schedule 12.04.2015

а.) Самым простым решением, безусловно, является алгоритм k-ближайших соседей (knn). Фактически, он будет классифицировать новые тексты с категориальным содержанием, используя метрику перекрытия.

Вы можете найти ресурсы здесь: https://github.com/search?utf8=%E2%9C%93&q=knn%20text&type=Repositories&ref=searchresults

person Tom A    schedule 11.04.2015

Проблема с набором данных. Если вы имеете дело с классификацией живых каналов пользователей, то я думаю, что ни один набор данных не будет удовлетворять вашим требованиям.

Потому что, если выйдет новый фильм X, он может не попасть в ваш набор классификационных данных, так как обучающий набор данных для него сейчас устарел.

Для классификации, я думаю, чтобы оставаться в курсе последних наборов данных, используйте наборы данных для обучения twitter. Разработайте динамический алгоритм, который обновит классификатор с помощью последних обновленных наборов данных твитов. Вы можете выбрать топ-15-20 хэш-тегов для каждой категории по вашему выбору, чтобы получить наиболее релевантный набор данных для каждой категории.

Классификатор:

В большинстве классификаторов используется модель набора слов, вы можете опробовать различные классификаторы и посмотрите, какой из них дает лучший результат. видеть :

  1. http://www.nltk.org/howto/classify.html
  2. http://scikit-learn.org/stable/supervised_learning.html
person user123    schedule 13.04.2015