У нас есть множество текстовых данных, и с помощью техники тематического моделирования мы можем анализировать затронутые темы. Он попадает в категорию неконтролируемых алгоритмов. Этот метод применяется в разных поисковых системах. Давайте рассмотрим набор данных Newspaper, мы можем легко найти темы, которые широко освещаются в этом наборе данных, такие как политика, спорт, погода, развлечения и многие другие, используя этот метод.

Этот блог предназначен для предоставления полезного объяснения тематического моделирования и его реализации для набора данных в реальном времени из списка публикаций на платформе Medium с использованием LDA (Latent Dirichlet Allocation).

Тематическое моделирование:

Тематическое моделирование - мощный способ анализа больших объемов текста. Существуют и другие типы, такие как pLSA (вероятностный скрытый семантический анализ), LSA (скрытый семантический анализ), но наиболее распространенным и, возможно, наиболее полезным для поисковых систем является скрытое распределение Дирихле или LDA. Тематические модели в LDA учитывают следующее: это форма интеллектуального анализа текстовых данных и статистического машинного обучения, состоящая из:

  • Кластеризация / Группировка слов по «темам».
  • Кластеризация / Группировка документов по «смесям тем».
  • С помощью байесовской модели вывода, которая связывает каждый документ с распределением вероятностей по темам, где темы - это распределения вероятностей по словам.

Фрагмент кода предназначен для моделирования тем для набора данных публикаций Medium. Gensim - это пакет Python, используемый для моделирования тем. Вы можете обратиться к моему блогу для создания этого набора данных. Весь код доступен на GitHub.

На этом шаге ниже мы добавим расширенные стоп-слова в существующий список.

Предоставляется входной файл CSV, а столбец Описание рассматривается для дальнейшего анализа текста.

Предварительная обработка текста выполняется в следующие этапы:

Приведенный ниже код создает модели биграмм и триграмм:

Построение модели LDA:

Печать тем WordCloud для LDA

Визуализация тем LDA с помощью pyLDAvis

Полученные результаты

По результатам мы можем легко проанализировать такие темы, как искусство, бизнес, технологии, инновационные идеи, люди, творческое письмо, которые чаще всего обсуждаются в различных публикациях среднего уровня.

Отсутствующие темы

Еще есть много возможностей для таких областей, как здоровье, мода, еда, развлечения, окружающая среда, например, изменение климата, умные города и их характеристики, а также многие другие области. Так что поторопитесь и восполните пробел !!!