Короче говоря, тематическое моделирование - это метод интеллектуального анализа текста для обнаружения тем в документах. Тема содержит группу слов, которые часто встречаются вместе, и моделирование темы может соединять слова, которые имеют похожие значения, и может различать использование слов с несколькими значениями. Учитывая, что текстовые документы состоят из слов, тема, охватываемая более чем одним документом, может быть выражена комбинацией сильно связанных слов, и любой данный документ может быть связан с более чем одной темой. Таким образом, тематическое моделирование - это метод, который можно использовать для вывода скрытых тем в коллекции текстовых документов. Двумя ключевыми результатами создания тематической модели для коллекции документов являются: 1) список тем (то есть группы слов, которые часто встречаются вместе) и 2) списки документов, которые прочно связаны с каждой из тем. В идеале каждая тема должна отличаться от других тем. Более того, ученые используют тематическую модель в различных исследованиях.

Рисунок 1. Приложения тематической модели

На рисунке 1. показаны поля, которые используются в тематической модели для улучшения связанных результатов. Другими словами, это некоторые текущие промышленные применения тематических моделей. Ниже приведены отрывки из выбранных статей по каждой заявке.

Живая лаборатория: в этом исследовании применяется анализ тематического моделирования на корпусе из 86 публикаций в Technology Innovation Management Review (TIM Review), чтобы понять, как к феномену живых лабораторий подходили в недавней литературе по управлению инновациями. Хотя анализ проводится на корпусе, собранном только из одного журнала, TIM Review опубликовал наибольшее количество специальных выпусков по живым лабораториям на сегодняшний день, таким образом, он отражает развитие этой области в научной литературе. Согласно анализу, исследовательские подходы к живым лабораториям можно разделить на семь широких тем: 1) Дизайн, 2) Экосистема, 3) Город, 4) Университет, 5) Инновации, 6) Пользователь и 7) Живая лаборатория. Причем каждая тема включает в себя набор характерных подтем. Анализ тенденций показывает, что акцент в исследованиях живых лабораторий смещается от концептуального акцента на том, что такое живые лаборатории и кто участвует в их экосистемах, к практическим применениям того, как проектировать и управлять живыми лабораториями, их процессами и участниками, особенно пользователи, как ключевые заинтересованные стороны и в новых областях применения, таких как городской городской контекст [[1]]

Биоинформатика. Тематическое моделирование - полезный метод (в отличие от традиционных средств обработки данных в биоинформатике), расширяющий возможности исследователей интерпретировать биологическую информацию. Тем не менее, из-за отсутствия тематических моделей, оптимизированных для конкретных биологических данных, исследованиям по тематическому моделированию в биологических данных предстоит еще долгий и сложный путь. В последние годы мы наблюдаем экспоненциальный рост биологических данных, таких как наборы данных микрочипов. Эта ситуация также представляет собой серьезную проблему, а именно, как извлечь из этих данных скрытые знания и взаимосвязи. Как упоминалось выше, тематические модели превратились в эффективный метод обнаружения полезной структуры в коллекциях. Поэтому все большее число исследователей начинают интегрировать тематические модели в различные биологические данные, а не только в коллекции документов. В этих исследованиях мы обнаружили, что тематические модели действуют больше, чем подход к классификации или кластеризации. Они могут моделировать биологический объект в терминах скрытых тем, которые могут более полно отражать лежащий в основе биологический смысл. Таким образом, недавно было показано, что тематические модели являются мощным инструментом биоинформатики [[2]]

Обобщение:

Обобщение мнений: обобщение недавно обнаруженных мнений важно для правительств, чтобы улучшить свои услуги, а для компаний - для улучшения своих продуктов. Поскольку никаких запросов заранее не задается, определение мнений аналогично задаче определения темы на уровне предложения. Помимо указания, какие мнения являются положительными или отрицательными, также важно определить, какие события коррелируют с такими мнениями [[3]]

Резюме встречи: для создания документов встречи требуется мгновенный рекордер во время встреч, что требует дополнительных человеческих ресурсов и времени для внесения поправок в файл. Однако высококачественный документ собрания может позволить пользователям эффективно вспоминать содержание собрания. Статья направлена ​​на обсуждение этих вопросов. Приложение, основанное на этой структуре, разработано, чтобы помочь пользователям находить темы и получать резюме содержания встреч без дополнительных усилий. Это приложение использует распознаватель речи Bluemix для получения расшифровок речи. Затем он объединяет скрытое распределение Дирихле и алгоритм TextTiling с речевым сценарием собраний для определения границ между различными темами и оценки тем в каждом сегменте. TextTeaser, открытый API, основанный на функциональном подходе, затем используется для обобщения транскриптов речи [« [4] ]

Настроение. С расширением и принятием Word Wide Web анализ тональности становится все более популярной областью исследований в области поиска информации и анализа веб-данных. Из-за огромного количества пользовательского контента в блогах, форумах, социальных сетях и т. Д. Анализ настроений привлекает исследователей как в академических кругах, так и в промышленности, поскольку он связан с извлечением мнений и настроений. В этой статье мы представили обзор тематического моделирования, особенно методов, основанных на LDA, в анализе настроений. Мы представили подробный анализ различных подходов и методов и сравнили точность различных систем среди них. Результаты различных подходов были обобщены, проанализированы и сложным образом представлены. Это настоящая попытка изучить различные методы моделирования тем в качестве анализа настроений и проведения всестороннего сравнения между ними [[5]]

Чат-бот: этот папир сказал: Оценка диалога - сложная проблема, особенно для диалогов, не ориентированных на задачу, где успех разговора не определен четко. Мы предлагаем оценивать качество диалога с помощью тематических показателей, которые описывают способность диалогового бота поддерживать последовательные и увлекательные беседы по теме, а также разнообразие тем, с которыми бот может справиться. Чтобы определять темы разговора по каждому высказыванию, мы применяем сети глубокого среднего значения (DAN) и обучаем тематический классификатор по множеству вопросов и данных запросов, разбитых на несколько тем. Мы предлагаем новое расширение DAN, добавляя таблицу внимания к теме и словам, которая позволяет системе совместно фиксировать ключевые слова темы в высказывании и выполнять классификацию тем. Мы сравниваем предложенные нами метрики на основе тематики с оценками, предоставленными пользователями, и показываем, что наши метрики коррелируют с человеческими суждениями и дополняют их. Наш анализ проводится на десятках тысяч реальных диалогов человек-бот из конкурса Alexa Prize и подчеркивает ожидания пользователей от диалоговых ботов. “[« [6] ]

Отслеживание тем. Обнаружение и отслеживание тем в текстовом потоке привлекает внимание многих исследователей. Ограничением большинства существующих методов является то, что они организуют темы в плоскую структуру. Иерархия тем может выявить потенциальные отношения между темами, что может помочь найти высококачественные темы при анализе текстового потока. В этой статье предлагается иерархический онлайн-метод факторизации неотрицательной матрицы (HONMF) для генерации иерархии тем из текстовых потоков. Предлагаемый метод позволяет динамически корректировать иерархию тем, чтобы адаптироваться к возникающим, развивающимся и исчезающим процессам тем. В эксперименте HONMF оценивается по множеству показателей. По сравнению с базовыми методами, наш метод может обеспечить лучшую производительность с конкурентоспособной эффективностью времени [[7]]

Вопрос и ответ: растет интерес к анализу текста на основе неструктурированных данных, таких как статьи и комментарии, вопросы и ответы. Это связано с тем, что их можно использовать для выявления, оценки, прогнозирования и рекомендации функций на основе неструктурированных текстовых данных, что является мнением людей. То же самое верно и для TEL, где сервис MOOC эволюционировал для автоматизации служб обсуждения, вопросов и ответов на основе системы поддержки преподавания и обучения, чтобы генерировать темы вопросов и автоматически классифицировать темы, относящиеся к новым вопросам, на основе вопросов и ответов. данные, накопленные в системе. С этой целью в настоящем исследовании предлагается тематическое моделирование на основе LDA. Предлагаемый метод позволяет формировать словарь вопросовных тем и автоматическую классификацию тем, актуальных для новых вопросов [[8]]

Категоризация текста: определение тем определяется как задача определения различных тем из коллекции документов. Один из подходов к обнаружению темы - найти тему для каждого документа в корпусе. Любое слово или группа слов, которые говорят о том, о чем идет речь в документе, определяется как тема документа. [[9]]

Сходство: эксперты по управлению репутацией должны, в частности, постоянно отслеживать Twitter и в любой момент времени решать, что говорится об интересующем лице (компании, организации, личности…). Автоматическое решение этой проблемы мониторинга репутации в качестве задачи обнаружения тем является одновременно важным - ручная обработка данных либо дорогостоящей, либо непомерно сложной - и сложной задачей: темы, представляющие интерес для мониторинга репутации, обычно являются мелкозернистыми и страдают от разреженности данных. Мы фокусируемся на решении проблемы, которая (i) изучает функцию попарного сходства твитов из ранее аннотированных данных, используя все виды функций на основе контента и Twitter; (ii) применяет алгоритм кластеризации к ранее изученной функции сходства. Наши эксперименты показывают, что (i) сигналы Twitter могут быть использованы для улучшения процесса обнаружения тем в отношении использования только сигналов контента; (ii) изучение функции подобия - это гибкий и эффективный способ внедрения супервизии в процесс кластеризации обнаружения тем. Производительность нашей лучшей системы существенно выше, чем у современных подходов, и приближается к уровню согласования между аннотаторами. Подробная качественная проверка данных позволяет выявить два типа тем, обнаруженных экспертами по репутации: предупреждения / проблемы репутации (которые обычно возникают со временем) и организационные темы (которые обычно стабильны во времени) [[10]]

Фильтр спама: в настоящее время методы, основанные на содержании, считаются более эффективными в задаче фильтрации спама службы коротких сообщений (SMS). Однако они обычно используют традиционные технологии классификации текстов, которые больше подходят для работы с обычными длинными текстами; поэтому он часто сталкивается с некоторыми серьезными проблемами, такими как проблема с разреженными данными и шумовыми данными в SMS-сообщении. Кроме того, существующие методы фильтрации SMS-спама обычно рассматривают задачу SMS-спама как проблему бинарного класса, которая не может обеспечить различные категории для фильтрации многоуровневого SMS-спама. В этой статье авторы предлагают модель темы сообщения (MTM) для фильтрации спама из многоуровневых SMS. MTM основан на известной модели вероятностных тем и улучшен в этой статье, чтобы сделать ее более подходящей для фильтрации спама в SMS. Наконец, авторы сравнивают MTM с SVM и стандартным LDA в общедоступном корпусе SMS-спама. Результаты экспериментов показывают, что MTM более эффективен для фильтрации SMS-спама. [[11], [12]]

Классификация. В связи с переполнением спама службы коротких сообщений (SMS) в настоящее время для фильтрации спама в SMS используются многие традиционные алгоритмы классификации текста. Тем не менее, поскольку содержание сообщений SMS-спама различно и отличается от обычных текстовых файлов, например, более коротких, обычно включающих массу сокращений, символов, вариантов слов и искаженных или искаженных предложений, традиционные классификаторы не подходят для задачи Фильтрация SMS-спама. В этой статье авторы предлагают модель коротких сообщений Biterm Topic Model (SM-BTM), которая может использоваться для автоматического изучения скрытых семантических функций из корпуса SMS-спама для задачи фильтрации SMS-спама. SM-BTM основан на теории вероятностей тематической модели и тематической модели Битерма (BTM). Эксперименты в этой работе показывают, что предлагаемая модель SM-BTM может приобретать более качественные тематические характеристики, чем исходная BTM, и больше подходит для выявления различного SMS-спама [[13]]

Рекомендательная система: предлагаем использовать технологии TDT для группировки новостей вместо обычных технологий кластеризации на основе элементов [[14]]

Тематическое химическое моделирование: в этой статье говорится, что мы взяли на вооружение вероятностную основу, называемую« тематическое моделирование , из области интеллектуального анализа текста. Здесь мы представляем первую связанную с химией реализацию этого метода, которая позволяет относить наборы больших молекул к химическим темам и исследовать взаимосвязи между ними. В этом первом исследовании мы тщательно оцениваем этот новый метод в различных экспериментах и ​​обсуждаем его недостатки и преимущества. Мы демонстрируем очень многообещающие результаты в воспроизведении концепций, заданных человеком, с использованием подхода, позволяющего идентифицировать и извлекать химические ряды из наборов молекул. Мы также создали интуитивно понятную визуализацию химических тем, выводимых алгоритмом. Это огромное преимущество по сравнению с другими методами машинного обучения без учителя, такими как кластеризация, которые обычно используются для группировки наборов молекул. Наконец, мы применили новый метод к 1,6 миллионам молекул набора данных ChEMBL22, чтобы проверить его надежность и эффективность. Примерно за 1 час мы построили модель этого большого набора данных из 100 тем, в которой мы могли идентифицировать интересные темы, такие как белки, ДНК или стероиды. Наряду с этой публикацией мы предоставляем наши наборы данных и реализацию нового метода с открытым исходным кодом (CheTo), которая будет частью будущей версии инструментария RDKit для хеминформатики с открытым исходным кодом ». [ [15] ]

Интернет вещей + здравоохранение. Цель этого исследования - раскрыть ключевые темы, скрытые в немногочисленной, но растущей академической литературе по применению Интернета вещей в здравоохранении. В частности, мы выполнили тематическое моделирование и определили пять доминирующих кластеров исследований, а именно: конфиденциальность и безопасность, беспроводные сетевые технологии, приложения, данные, а также интеллектуальное здоровье и облако. Наши результаты показывают, что исследования в области Интернета вещей в здравоохранении в основном сосредоточены на технических аспектах, а социальные проблемы мало внимания. Помимо категоризации и обсуждения выявленных тем, в документе представлены направления будущих исследований. [[16]]

HR. Командная работа человека и машины направлена ​​на объединение когнитивных способностей человека с уникальными возможностями интеллектуальных машин. Проблемой в команде человек-машина является отсутствие у машины коммуникативных навыков, таких как неспособность знать, когда прерывать товарищей по команде. Предлагаемое решение этой проблемы - интеллектуальная система прерывания, которая отслеживает речевое общение товарищей по команде и предсказывает подходящее время для прерывания, не нарушая командного взаимодействия. Текущее исследование расширяет модель границ задачи только для просодии как интеллектуальную систему прерывания с моделью границ задачи только для темы. Модель границ задачи только для темы превосходит модель только для просодии с увеличением оценки F1 на 9,5%, но имеет ограниченную способность обрабатывать тематические данные в режиме реального времени, что является предыдущим преимуществом модели границ задачи только для просодии. [[17]]

IOT: в этом документе говорится: Интернет вещей (IoT) обеспечивает интеллектуальные возможности для связи между людьми и физическими объектами. Важный и критический вопрос в сервисных приложениях IoT - как сопоставить подходящие сервисы IoT с запросами на обслуживание. Чтобы решить эту проблему, исследователи используют методы семантического моделирования для сопоставления сервисов. Методы семантического моделирования в IoT извлекают метаданные из текста с использованием подходов на основе правил или методов машинного обучения, часто страдают от масштабируемости и разреженности, поскольку текст, предоставляемый датчиками, короткий и неструктурированный. В последние годы тематическое моделирование используется в поиске партнеров для IoT-сервисов. Однако большинство методов тематического моделирования не работают при подборе соответствия служб IoT, поскольку текст слишком короткий. Для решения этих проблем в данной статье предлагается новый метод моделирования тем для извлечения сигнатур тем, предоставляемых интеллектуальными устройствами. Этот метод расширяет классическую структуру представления знаний и улучшает качество извлечения служебной информации, и этот процесс может повысить эффективность согласования служб в службе Интернета вещей. Структура включает человеческое познание, чтобы повысить эффективность алгоритма и сделать алгоритм более устойчивым в гетерогенных системах в IoT. Полезность метода проиллюстрирована экспериментами с использованием реальных наборов данных [«[18]].

Здравоохранение: в этом документе говорится: Фармаконадзор и в целом применение моделей обработки естественного языка в здравоохранении привлекают все большее внимание в последние годы. В частности, реакции на лекарства могут быть извлечены из отзывов пользователей, размещенных в Интернете, а автоматическая обработка этой информации представляет собой новый и захватывающий подход к персонализированной медицине и широкомасштабным тестам на наркотики. В медицинских приложениях первостепенное значение имеет демографическая информация об авторах этих обзоров, такая как возраст и пол; однако существующие исследования обычно либо предполагают, что эта информация доступна, либо полностью игнорируют проблему. В данной работе мы предлагаем и сравниваем несколько подходов к автоматическому извлечению демографической информации из пользовательских текстов. Мы сравниваем современные методы обработки естественного языка, включая расширения тематических моделей и сверточные нейронные сети (CNN). Мы применяем однозадачные и многозадачные подходы к этой проблеме. Основываясь на реальном наборе данных, полученном с веб-сайта, посвященного здоровью, мы делаем вывод, что, хотя CNN лучше всего работают с точки зрения прогнозирования демографической информации путем совместного изучения различных атрибутов пользователей, тематические модели предоставляют дополнительную информацию и отражают гендерные и возрастные особенности профили симптомов, которые могут быть интересны исследователю «[« [19] ]

*****************************Использованная литература******************** ********

«[1]» Вестерлунд, М., Леминен, С., и Раджахонка, М. (2018). Тематический модельный анализ исследований живых лабораторий. Обзор управления инновационными технологиями, 8 (7).

[2] Лю Л., Тан Л., Донг В., Яо С. и Чжоу В. (2016). Обзор тематического моделирования и его текущих приложений в биоинформатике. SpringerPlus, 5 (1), 1608.

[3] Ку, Л. В., Ли, Л. Ю., Ву, Т. Х., и Чен, Х. Х. (2005, август). Выявление основной темы и ее применение для обобщения мнений. В Материалы 28-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (стр. 627–628). ACM.

[4] Хуанг, Т. К., Се, К. Х., и Ван, Х. С. (2018). Автоматическая система подведения итогов встречи и определения тем. Технологии и приложения данных, 52 (3), 351–365.

[5] Рана, Т.А., Чеа, Ю.Н., и Летчмунан, С. (2016). Тематическое моделирование в анализе настроений: систематический обзор. Журнал исследований и приложений ИКТ, 10 (1), 76–93.

[6] Го, Ф., Металлиноу, А., Хатри, К., Раджу, А., Венкатеш, А., и Рам, А. (2018). Тематическая оценка разговорных ботов. Препринт arXiv arXiv: 1801.03622.

[7] Ту, Д., Чен, Л., Львов, М., Ши, Х., и Чен, Г. (2018). Иерархический онлайн-файл NMF для обнаружения и отслеживания иерархии тем в текстовом потоке. Распознавание образов, 76, 203–214.

[8] Ким, К., Сонг, Х. Дж., И Мун, Н. (2017). Тематическое моделирование для анализа вопросов и ответов учащегося. В книге Advanced Multimedia and Ubiquitous Engineering (стр. 652–655). Спрингер, Сингапур.

[9] Харибхакта Ю., Малгаонкар А. и Кулкарни П. (2012, сентябрь). Модель неконтролируемого обнаружения тем и ее применение в категоризации текста. В Труды Международной конференции по информационным технологиям CUBE (стр. 314–319). ACM.

[10] Спина, Д., Гонсало, Дж., И Амиго, Э. (2014, июль). Изучение функций сходства для обнаружения темы в онлайн-мониторинге репутации. В материалах Труды 37-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (стр. 527–536). ACM.

[11] Ма, Дж., Чжан, Ю., Ван, З., и Ю, К. (2016). Модель темы сообщения для фильтрации спама в SMS с несколькими гранями. Международный журнал технологий и взаимодействия с людьми (IJTHI), 12 (2), 83–95.

[12] Аль Мубайед, Н., Брекон, Т., Мэтьюз, П., и Макгоф, А.С. (2016, сентябрь). Фильтрация SMS-спама с использованием вероятностного тематического моделирования и автокодировщика шумоподавления. В Международной конференции по искусственным нейронным сетям (стр. 423–430). Спрингер, Чам.

[13] Ма, Дж., Чжан, Ю., Чжан, Л., Ю, К., и Лю, Дж. (2017). Двухчленная тематическая модель для классификации SMS. Международный журнал передачи бизнес-данных и сетей (IJBDCN), 13 (2), 28–40.

[14] Цю, Дж., Ляо, Л., и Ли, П. (2009, июль). Система рекомендаций новостей, основанная на обнаружении и отслеживании тем. В Международной конференции по грубым наборам и технологиям знаний (стр. 690–697). Шпрингер, Берлин, Гейдельберг.

[15] Шнайдер Н., Фехнер Н., Ландрам Г. А. и Стифл Н. (2017). Химическое тематическое моделирование: изучение наборов молекулярных данных с использованием общего подхода интеллектуального анализа текста. Журнал химической информации и моделирования, 57 (8), 1816–1831.

[16] Данту, Р., Диссанаяке, И., и Нерур, С. (2019, январь). Исследовательский анализ Интернета вещей (IoT) в здравоохранении: подход тематического моделирования. В Протоколах 52-й Гавайской международной конференции по системным наукам.

[17] Питерс, Н. С., Брэдли, Г. К., и Маршалл-Брэдли, Т. (2019, февраль). Вывод границ задачи с помощью тематического моделирования для прогнозирования сроков прерывания взаимодействия человек-машина. В Международной конференции по интеграции интеллектуальных систем человека (стр. 783–788). Спрингер, Чам.

[18] Лю Ю., Ду Ф., Сунь Дж., Цзян Ю., Хе Дж., Чжу Т. и Сунь К. (2018). Тематическая модель на основе краудсорсинга для поиска партнеров в Интернете вещей. Компьютерные системы будущего поколения, 87, 186–197.

[19] Тутубалина Э., Николенко С. (2018). Изучение сверточных нейронных сетей и тематических моделей для профилирования пользователей из обзоров лекарств. Мультимедийные инструменты и приложения, 77 (4), 4791–4809.

[20] Чанг, К., Ю, Х., Чхве, Д., и Юнг, Х. (2018). Процесс тематического майнинга на основе блокчейн-сети для когнитивного производства. Персональная беспроводная связь, 1–15.

Промышленные приложения тематической модели