В задаче обработки естественного языка, включая интеллектуальный анализ текста, многие подходы используют контролируемое обучение, когда у вас есть ввод и метка, и машина может найти шаблон. Однако существует также обучение без учителя, когда у вас есть только данные и вы хотите найти группы, например, на основе сходства.

Тематическое моделирование - одна из задач обучения без учителя. Тематическое моделирование позволяет уловить скрытую семантическую структуру документа. Основное предположение состоит в том, что каждый документ состоит из смеси тем, а темы состоят из набора слов.

Тематическое моделирование не ново, его разрабатывают исследователи много лет. Также существует множество руководств по тематическому моделированию с использованием Gensim и scikit-learn. Были изучены некоторые популярные среди практиков алгоритмы, такие как нематричная факторизация, скрытое распределение Дирихле, скрытый семантический анализ и pLSA , некоторые из которых реализованы в библиотеках. Более того, он также создает людей по всему миру для реализации методов в конкретных случаях, как показано ниже.

Вот несколько тщательно отобранных статей, в которых подробно обсуждаются концепции и реализации тематического моделирования.













И есть статья, которая действительно хорошо объясняет, как работают алгоритмы тематической модели.



Цель этой статьи - дать всесторонний обзор проблем и методов тематического моделирования, которые были недавно разработаны исследователями. Текущий прогресс не останавливается на применении LDA или изменении LDA, но также расширяет проблему и применяет различные подходы в нейронных сетях, включая встраивание слов, вариативные автокодировщики, Генеративные состязательные сети и некоторые дополнения к LDA, такие как изменение ранжирования слов и представления документов.

В этой статье будет цитироваться множество статей и упоминаться термины, которые не могут быть подробно объяснены. Однако вы можете обратиться к первоисточникам, чтобы понять более глубокую концепцию. Эта статья также имеет тенденцию помочь людям, которые хотят провести исследования по тематическому моделированию, которые решают текущую проблему тематического моделирования, особенно в Джакарте по исследованиям искусственного интеллекта.



Давай нырнем

Показанное выше изображение - это статьи, которые я просмотрел. Я читаю 66 статей, и только 34 статьи актуальны или интересны. Сначала я нашел много документов в приложении или применил LDA для конкретных случаев, таких как политическое событие, катастрофа и так далее, и только некоторые из них действительно развивают подход.

Тематическая модель в приложениях

Производство: когда я впервые думал о производстве, я всегда имел в виду машиностроение, но статья открывает новые перспективы. Речь идет о поиске тенденций и тем в производственных исследованиях, которые со временем выросли. В статьях собрано большое количество рефератов из разных стран и конкретных областей. Они обнаружили, что объем исследований производства становится все более междисциплинарным, а это означает, что некоторые области также вносят свой вклад в производство, такие как менеджмент и материалогия. Это также больше не ограничивается механической трансмиссией или тяжелыми станками, но и передовыми технологиями. В документе также показано, что некоторые регионы сосредоточены только на некоторых областях, что означает, что некоторые регионы могут столкнуться с проблемами, которых нет в других регионах. - Анализ тем научных исследований в области производства с использованием тематической модели

Черные рынки в Интернете: еще один вариант использования тематического моделирования, в статье анализируется DarkNetMarkets, специальный форум по интересам, называемый subreddit. Идея состоит в том, чтобы извлечь ключевые слова и нарисовать тенденцию из извлеченных ключевых слов, чтобы найти шаблон. Результаты показывают, что пользователи более осторожны из-за недавнего правоприменения, используя скрытое распределение Дирихле, и данные были собраны с ноября 2016 года по октябрь 2017 года. - Анализ субреддита DarkNetMarkets на предмет эволюции инструментов и тенденций с использованием тематического моделирования LDA

Темы научных исследований: Как и в случае с производством, в этой статье были проанализированы тезисы конференции ICCS с 2001 по 2017 годы. Авторы экспериментировали с использованием неотрицательной матричной факторизации, и было собрано 5982 статьи. Кроме того, результат был спроецирован на график временных рядов с использованием ARIMA для прогнозирования тенденции темы исследования. - На пути к прогнозированию тенденций в темах научных исследований с использованием тематического моделирования

Первичные президентские выборы в США 2016: президентские выборы всегда вызывают интерес людей к анализу текста в социальных сетях, где есть много вопросов, которые игнорируют политики, многие спорят о законопроекте, предложениях и многом другом. более. Даже мы часто видим, как они дерутся друг с другом, и, к сожалению, за ними следуют их избиратели. Тем не менее, в этой статье была предпринята попытка собрать и проанализировать президентские выборы 2016 года в США. Они сделали два разных набора данных. Во-первых, данные были собраны с помощью Twitter4J 27 апреля 2016 года и получили 3200 последних твитов. Другой, названный USE2016, данные были собраны с 1 февраля по 1 мая 2016 года, и 144 миллиона твитов были объединены с использованием общих хэштегов для первичных выборов 2016 года в США. Цель статьи - увидеть, идентичен ли какой-либо конкретный твит определенному местоположению без указания местоположения твита, и в документе использовалось потоковое скрытое распределение Дирихле. - Отслеживание географических местоположений с использованием тематической модели с учетом географии для анализа данных социальных сетей

Остальную статью о применении тематического моделирования, которую я прочитал, можно найти здесь. Это сделает статью действительно длинной. Предлагаю вам прочитать эти ссылки. Пример использования Транспорт и Отзывы об отелях

Вот некоторые из моих основных моментов для выявления проблем и решений в области тематического моделирования.

Краткий текст

При тематическом моделировании необходимо выделить два типа проблем. Первый, когда у вас есть длинный текстовый документ, и когда у вас есть короткий текстовый документ. Скрытое размещение Дирихле хорошо помогает найти тему в длинном текстовом документе и плохо работает с коротким текстом. Как цитируется в статье Одной из популярных стратегий является агрегирование текста. Он объединяет короткие тексты в более длинные псевдодокументы для применения традиционной тематической модели, например «SATM и PTM ».

  • Агрегация текста «. Предлагается самоагрегированная тематическая модель для агрегирования коротких текстов для разреженности данных. Однако количество его параметров увеличивается с увеличением размера данных, поскольку они подвержены переобучению и требуют больших вычислительных затрат ».
  • Встраивание слов, этот метод широко используется для представления слов в векторном пространстве и более плотного представления по сравнению с мешком слов, который имеет разреженное представление. Как заявили авторы, встраивание слов « кодирует как синтаксическую, так и семантическую информацию. Подобные слова близки в векторном пространстве. По сравнению с подходом агрегирования они игнорируют распределение тем по документам и рассматривают весь корпус »

- Тематическая модель автоэнкодера на основе внимания для коротких текстов

Тематическая модель с использованием нейронной сети

  • Внимание. Как упоминалось выше, тематическое моделирование для короткого текста работает неэффективно. Вложение слов - один из способов борьбы с разреженностью. Встраивание слов обычно обрабатывается через нейронную сеть, и вы, вероятно, знаете, что теперь, используя нейронную модель, мы можем извлекать из нее ключевые слова. Я нашел несколько интересных работ, в которых используется механизм внимания для модели темы, который подчеркивает релевантную информацию и улучшает согласованность темы. В документе проводился эксперимент с набором данных веб-сниппетов, который содержит 12 тыс. Фрагментов веб-поиска из восьми категорий. Они также сравнивают модель с базовыми показателями, такими как BTM, GPU-DMM, GPU-PDMM, и оценивают результат, используя метрику согласованности темы.
  • Генеративная состязательная сеть. Одним из ключевых результатов обзора литературы является то, что я нашел статью, в которой используется способность генерирующей состязательной сети для тематического моделирования. Бумага была вдохновлена ​​ограничениями Variational Auto-Encoder. Многие из них были сначала протестированы с помощью VAE, но он не дает семантического представления на уровне слов, а также две статьи, на которые были ссылки, не могли охватить множественность тематических аспектов в документе и привести к созданию плохих тем.

Как вы, возможно, знаете, Генеративная состязательная сеть была разработана в области компьютерного зрения, одна из сетевых моделей которой способна создавать изображение с учетом двух сетей, а именно генератора и дискриминатора. В то же время во многих работах пытались применить GAN к задаче обработки естественного языка, как упоминалось в документе, например, к генерации текста, а в других - на состязательном обучении для полууправляемой классификации текста. Однако ни один из них не решает проблему моделирования темы. В отличие от моделей VAE, предлагаемый метод использует априор Дирихле для скрытой темы.

В статье они экспериментировали с двумя общедоступными наборами данных, а именно Grolier NY Times и Event Dataset. Эксперимент сравнивал с пятью базовыми уровнями, такими как LDA, NVDM, LDA-VAE, ProdLDA и LEM, и оценивал их с помощью тематической согласованности. - Банкомат: состязательная нейронная тематическая модель

Тема и представление документов

Представление документа - это метод преобразования неструктурированного текста в понятное для машины представление, которое фиксирует семантическое значение документа. Многие используют матрицу инцидентности или матрицу подсчета на основе вхождений слов в документе. Однако эти приемы часто не дают столь значимых тем. Бумага использует встраивание слов в сочетании с LSTM и ограничением сходства. Обычно это используется для классификации текста, но представление документа можно использовать для извлечения темы при обработке ограничения сходства. - Изучение представления документа с помощью тематической модели LSTM.

Другое исследование недавно использовало метод переориентации, такой как хи-квадрат и стандартное отклонение веса и веса с размером темы, чтобы найти более полное представление модели темы. Однако в документе использовался LDA для извлечения слов темы вместо сетевого уровня. Представление темы: поиск более репрезентативных слов в тематических моделях

Моделирование контролируемых тем

И вот он, неожиданные результаты - контролируемое обучение тематической модели. Я нашел несколько статей, в которых обсуждается STM, но в основном они строят контролируемую модель и извлекают тему из веса, с которым вы тренируете модель в первую очередь. Большинство из них тренируются совместно, тренируя модель, но также выявляя тему. и вот некоторые основные моменты из газет.

  • «Большинство тематических моделей, таких как скрытое распределение Дирихле, не контролируются: моделируются только слова в документах. Цель состоит в том, чтобы определить темы, которые увеличивают вероятность сбора. В статье авторы разрабатывают модели контролируемых тем, в которых каждый документ сопровождается ответом. Цель состоит в том, чтобы вывести скрытые темы для прогнозирования ответа. Имея документ без ярлыка, мы выводим его тематическую структуру, используя подобранную модель, а затем формируем его прогноз ». - Модели контролируемых тем
  • «Авторы предлагают первую байесовскую конструкцию для совместного выполнения тематического моделирования и нелинейной классификации. Авторы используют хорошо известное скрытое распределение Дирихле для тематического моделирования и разреженные гауссовские процессы для нелинейной классификации. Они объединили эти два компонента с помощью скрытой переменной, кодирующей эмпирическое распределение тем каждого документа в корпусе ». - Наблюдение за тематическими моделями с помощью гауссовских процессов
  • «Одним из преимуществ использования механизма внимания является то, что изученные веса внимания можно визуализировать, чтобы обеспечить интуитивное понимание того, что больше всего способствует решению модели».
  • «Однако простое использование весов внимания, полученных с помощью традиционных сетей внимания, таких как иерархическая сеть внимания, не даст хороших результатов для выделения тем, несущих полярность, например, в этих моделях вес внимания каждого слова рассчитывается как сходство между представление скрытого состояния слова с вектором контекста, общим для всех документов. Не существует механизма для разделения слов на несколько кластеров, представляющих темы, несущие полярность ». - TDAM: тематическая модель внимания для анализа настроений

Заключить

Идея этого обзора литературы мне пришла от Рубена Стефануса - одного из ключевых исследователей в Jakarta Artificial Intelligence Research. Мы оба сразу обсуждаем тематическое моделирование, и я начал узнавать больше о подходах и алгоритмах тематического моделирования. В свое время я построил тематическую модель, используя скрытое распределение Дирихле для конкуренции данных - анализируя личность учителя для обучения, и она дала неплохие результаты, и выводы были полезны. Надеюсь, эта статья поможет всем, кто хочет начать свои исследования в области тематического моделирования. Чтобы присоединиться к нашему исследовательскому сообществу, заполните эту форму.

Ваше здоровье!

Если вам понравился этот пост, не стесняйтесь нажимать кнопку хлопка 👏🏽 и если вы хотите, чтобы посты были в будущем, обязательно подписывайтесь на меня в среде