ЕЖЕМЕСЯЧНОЕ ИЗДАНИЕ

Апрельское издание: Приключения в тематическом моделировании

Помимо анализа настроений

Компьютеры отлично подходят для работы со структурированными данными, такими как электронные таблицы и таблицы баз данных. Но поскольку люди в основном общаются с помощью языка и слов, для компьютеров это плохо. Большая часть информации в мире неструктурирована - например, необработанный текст на английском или другом языке. Как заставить компьютер понимать неструктурированный текст и извлекать из него информацию?

Обработка естественного языка (NLP) - это подраздел искусственного интеллекта, который ориентирован на то, чтобы компьютеры могли понимать и обрабатывать человеческие языки. Если вы новичок в науке о данных, вы увидите, что существует множество материалов, охватывающих все виды задач, связанных с НЛП. Наиболее частые сообщения в блогах о НЛП, которые я видел, связаны с анализом настроений. То есть определение того, выражает ли фрагмент текста положительное или отрицательное мнение. Но существует еще много проблем с НЛП.

Я хотел бы привлечь ваше внимание к тематическому моделированию - области в рамках НЛП, которой я недавно начал серьезно интересоваться. Тематическое моделирование выявляет скрытые шаблоны вхождений слов, используя распределение слов в коллекции документов. Результатом является набор тем, состоящий из кластеров слов, которые встречаются в этих документах в соответствии с определенными шаблонами.

Почему я считаю тематическое моделирование интересным? Потому что в наши дни, как никогда, важно не только то, что мы чувствуем, но и то, что мы говорим. В сочетании анализ тональности и тематическое моделирование могут использоваться для выполнения так называемого анализа тональности на основе аспектов, цель которого состоит в том, чтобы извлечь как сущность, описанную в тексте, так и настроения, выраженные по отношению к таким сущностям.

Для предприятий преимущества, полученные от изучения того, как клиенты реагируют на определенные части вашей услуги или продукта, могут помочь в поддержке бизнес-вариантов использования, включая разработку продукта и контроль качества, коммуникации, поддержку клиентов и процессы принятия решений. Это гораздо больше информации, чем просто знание того, довольны или недовольны ваши клиенты, и это может помочь поддержать постоянное развитие и улучшение вашего бизнеса.

Лоури Уильямс, младший редактор журнала Towards Data Science

Интерактивное моделирование тем с помощью BERTopic

Подробное руководство по тематическому моделированию с помощью BERTopic

От Маартен Гроотендорст - читается за 7 мин.

Статьи по тематическому моделированию с помощью NMF

Извлечение тем - хороший метод неконтролируемого интеллектуального анализа данных, позволяющий обнаружить лежащие в основе отношения между текстами.

Автор Роб Сальгадо - чтение 12 мин.

Учебник по тематическому моделированию со скрытым распределением Дирихле (LDA)

Практическое руководство с проверенным практическим кодом Python. Найдите, о чем люди пишут в Твиттере.

Мишель Кана, доктор философии - чтение 5 мин.

Введение в тематическое моделирование с помощью Scikit-Learn

Изучите 3 бесконтрольных метода извлечения важных тем из документов

Автор Нг Вай Фунг - чтение 10 мин.

Понимание НЛП и тематического моделирования, часть 1

Мы изучаем, как извлечение тем с помощью НЛП помогает нам лучше изучать данные

От Тони Ю - читается за 8 мин.

Моделирование тем в Power BI с использованием PyCaret

В этом посте мы увидим, как реализовать тематическое моделирование в Power BI с помощью PyCaret.

От Моэза Али - читается за 7 мин.

Тематическое моделирование: выход за рамки токенов

Исследование того, как присваивать темам значимые названия

Автор Лоури Уильямс - чтение 9 мин.

Тематическое моделирование с PLSA

PLSA или вероятностный скрытый семантический анализ - это метод, используемый для моделирования информации в рамках вероятностной структуры.

От Дхрувил Карани - чтение 5 мин.

Анализ настроений: анализ мнений на основе аспектов

Исследование методов анализа настроений и тематического моделирования.

Автор Лоури Уильямс - читается за 8 мин.

Тематическое моделирование на Python с помощью NLTK и Gensim

В этом посте мы узнаем, как определить, какая тема обсуждается в документе, это называется тематическим моделированием.

От Сьюзан Ли - чтение 6 мин.

Новые подкасты

Мы также благодарим всех замечательных новых писателей, которые недавно присоединились к нам: Вивьен ДиФранческо, Монику Индраван, Уагенуни Мохамед, Лейн Сэдлер , Кендрик Нг, Соруш Сафеи, Александра Соули, Гант Лаборд, abhi saini , Эден Молина, Войтек Пирак, Бора Тунка, Сэм Ансари, Махмуд Хармуш , Аджай Аруначалам, Максим Зиатдинов, Саджад Шумалы, Хуан Самуэль, Сергей Поспилов , Фернандо Каррильо, Янн Моризе, Себастьян Карино, Пэн Ян, Пол Брунзема , Андерс Борхес, Бен Богарт, Сяо-Ян Лю, Алекс Вагнер, Мишель Кавацца , Димитрис Дэйс, Джулиан Хацки, Эванс Доу Оканси, Праджвалан Каранджит, Икбал Али, Стефан Хруда-Расмуссен, Майк Казале, Махам Фейсал Хан, Зайнул Арифин, Силья Вулма, доктор философии, Will Nobles, Бен Сантос, Mai S. таффорд и многие другие. Мы приглашаем вас взглянуть на их профили и проверить их работу.