В этом посте обсуждаются недостатки представления каждой темы в тематическом моделировании и различные подходы к их устранению.

Оглавление:

Введение

Тематическое моделирование было популярным фреймворком для выявления скрытых тем из текстовых документов. Один из стандартных способов пометить каждую тему - представить ее с помощью 10 основных терминов с наивысшей маргинальной вероятностью p (wi | tj) каждого термина wi в данной теме tj. Например:

В приведенном выше случае мы можем предположить, что тема, вероятно, посвящена «торговле на фондовом рынке» [1]. Но, к сожалению, не всегда главные слова каждой темы являются связными, поэтому придумать хороший ярлык для описания каждой темы может быть довольно сложно. Кроме того, при работе с большим корпусом документов было бы неплохо иметь хороший репрезентативный ярлык для каждой темы, а не смотреть на 10 основных терминов для каждой темы и выяснять, о чем может быть каждая тема. В целом, он склонен к субъективности из-за когнитивной нагрузки при интерпретации 10 основных слов и отсутствия воспроизводимости / автоматизации [3].

Маркировка тем, как правило, направлена ​​на присвоение одной или нескольких описательных фраз для представления каждой темы и автоматическое создание таких фраз [2]. В этой области исследований было предпринято много попыток. В большинстве процессов создания тематических ярлыков многие статьи обсуждают свои идеи, разбитые на две основные концепции: Создание ярлыка кандидата, которое должно генерировать возможные ярлыки темы, и Ранжирование ярлыков кандидата который заключается в ранжировании сгенерированных меток на основе некоторых методов оценки семантической релевантности. В этой статье мы хотим изучить некоторые из важных статей раздела Обозначение тем в отношении этих концепций и рассказать, какой вклад внесла каждая статья в эту область.

Автоматическое присвоение меток полиномиальным тематическим моделям (Мей и др., 2007 г.)

Эта статья является первой, в которой проблема разметки тем формулируется следующим образом: «Учитывая набор скрытых тем, извлеченных из текстовой коллекции в форме полиномиальных распределений, наша цель - неформально - создать понятные смысловые метки для каждой темы »[1]. При этом он также определяет полезные термины, которые описаны ниже.

Кроме того, в статье также говорится о следующих качествах хороших ярлыков: понятность, семантически релевантная, различительная по темам и высокий охват каждой темы [1].

  • Создание ярлыка кандидата

В документе используются следующие два метода для извлечения ярлыков-кандидатов из корпуса, как показано ниже.

  • Разделение на фрагменты / поверхностный анализ: он использует фрагмент NLP для извлечения частых фрагментов / фраз. Преимущество в том, что чанкер производит грамматические и содержательные фразы, но точность зависит от обученной области.
  • Тестирование Ngram: основная идея этого метода заключается в том, что часто встречающиеся друг с другом ngram, вероятно, будут содержательными фразами. Преимущество состоит в том, что он не зависит от обученной области, но обратная сторона заключается в том, что эти извлеченные нграммы могут не иметь лингвистического смысла и обычно хорошо работают только для биграмм.
  • Рейтинг кандидатов

В документе предлагаются две семантические релевантные оценочные функции, описанные ниже.

  • Релевантность нулевого порядка

Этот метод лучше всего представлен на Рисунке 1 из статьи Мей [1]. Основная идея этой функции оценки состоит в том, чтобы выбрать метку с наивысшей оценкой, определенной ниже.

Эта оценка в основном подразумевает фразу с более важными словами с точки зрения предельной вероятности, учитывая, что тема считается хорошим ярлыком для темы.

  • Актуальность первого порядка

Двумя другими важными концепциями, обсуждаемыми в документе, являются ярлыки с высокой степенью охвата и дискриминационные ярлыки. Основная идея для выбора меток с высоким охватом заключается в использовании максимальной маржинальной релевантности (MMR) [4], которая используется для достижения высокой релевантности и низкой избыточности в задачах поиска информации. Для выбора дискриминационных ярлыков важно добиться межтематической дискриминации. Чтобы предотвратить дублирование ярлыков тем по разным темам, в документе предлагается метрика, которая наказывает ярлыки тем, которые имеют высокие оценки релевантности для многих тем, таким образом выбирая ярлыки, которые имеют высокую семантическую релевантность для данной темы и низкую релевантность для других.

Автоматическое присвоение ярлыков темам (Магатти и др., 2009 г.)

После статьи Мей были предприняты попытки предоставить некоторую априорную информацию для обозначения тем, чтобы улучшить качество генерируемых ярлыков-кандидатов. Следующая статья демонстрирует весьма предварительные результаты с целью ввести априорную информацию для создания более качественных этикеток, но также дает некоторые надежды.

В этом документе используется иерархия каталога Google (gDir) для создания меток-кандидатов. Следуя их предположению, что мир описывается набором концепций (то есть тем), которые вставляются в легкую онтологию [5], они генерируют метки-кандидаты с онтологическим выравниванием тем с иерархией gDir.

  • Создание ярлыка кандидата

Как и в предположении, описанном выше, в документе строится Дерево тем с использованием gDir, и каждый узел представляет метку, которая, по сути, является концепцией, определенной в gDir.

  • Рейтинг кандидатов

Они используют 6 различных мер сходства: косинус, перекрытие, взаимное сходство, сходство по Жаккару и Танимото.

С извлеченным деревом тем из gDir и извлеченной темой, которая представляет собой список слов, запускается алгоритм ALOT. Алгоритм состоит из двух основных компонентов: меры сходства и правила разметки. Описанные выше меры сходства относятся к списку слов (извлеченным темам), а правила маркировки используют дерево тем для присвоения наилучшего ярлыка для каждой темы. Основная идея состоит в том, что для заданного набора извлеченных тем алгоритм вычисляет 6 мер сходства и выбирает оптимальную метку для каждой. Когда все меры сходства выбирают одну и ту же лучшую метку, она находится в Соответствии темы (TC) и просто присваивает эту метку. Когда его нет в TC, это называется несоответствие тем (TD). Он делится на два случая:

  • SA: семантическая ассоциация, при которой все метки имеют общего предшественника, отличного от корня (наиболее общая метка для всех меток в поддереве). Этот случай далее делится на два случая, когда все узлы лежат на одном и том же пути, который мы выбираем с наименьшими метками среди выбранных меток, и где все узлы принадлежат к общему поддереву, которое мы выбираем наименее общего предка.
  • NSA: Несемантическая ассоциация, темы не имеют общего предшественника, кроме корня. Есть три метода решения проблемы: S-dmatp, который выбирает единственную самую глубокую максимально согласованную предшественницу темы (схема большинства голосов), M-dmatp, который выбирает максимально встреченную метку среди несколько самых глубоких максимально согласованных предшественников темы (максимальное количество вхождений) и R-dmatp, где он возвращает корневой узел, когда S-dmatp возвращает корневой узел, и максимальное количество вхождений одинаково как минимум для двух предшественников .

Выбор лучшего тематического слова для обозначения тем (Лау и др., 2010 г.)

Этот документ предлагает простую идею представления каждой темы одним из 10 лучших слов, что является традиционным способом визуализации каждой темы. Чтобы методика работала хорошо, каждое тематическое слово в теме должно быть последовательным, но это не всегда так.

  • Создание ярлыка кандидата

Кандидатами являются первые n слов по предельной вероятности {p (w | Θ)} w∈V, где V - словарный набор. В статье используется n = 10.

  • Рейтинг кандидатов

Как описано выше, если исходить из согласованности ключевых слов в теме, основная идея состоит в том, что «наиболее репрезентативное слово должно быть легко вызвано другими словами в теме» [6].

В документе используются 6 различных функций, которые будут использоваться для обучения регрессии опорных векторов в сравнении с выбранным ранжированием аннотаторов и использоваться для повторного ранжирования слов.

Каждую метрику можно использовать только как метод ранжирования, но в статье используются различные комбинации вышеперечисленных функций в SVM, чтобы получить лучшую модель повторного ранжирования.

Автоматическая маркировка тематических моделей (Лау и др., 2011 г.)

Эта статья является естественным продолжением работы Lau et al. (2010). Причина, по которой хороший ярлык темы часто заключается в идеях или концепциях, которые лучше выражаются с помощью нескольких слов или терминов, которые не входят в 10 основных терминов темы. Методология состоит в том, чтобы с помощью английской Википедии генерировать кандидатов на ярлыки тем и ранжировать их соответствующим образом.

  • Создание ярлыка кандидата

При условии, что подавляющее большинство концепций / тем заключено в Википедию, каждый заголовок статьи Википедии считается допустимым ярлыком. Ярлыки кандидатов генерируются следующим образом:

  1. Основные кандидаты: они создаются путем запроса (а) собственного API поиска Википедии и (б) поиска Google с ограничением по сайтам. Объединенный набор из 8 заголовков статей, полученных двумя поисковыми системами, составляет основных кандидатов.
  2. Вторичные метки: они генерируются путем разбора фрагментов сгенерированных первичных кандидатов с использованием чункера OpenNLP для извлечения всех словосочетаний существительных. Вторичные метки обрезаются путем выбора только тех фрагментов, которые являются действительными статьями Википедии. Кроме того, извлеченные словосочетания существительных, которые лишь незначительно связаны с темой, снова сокращаются с помощью RACO (концептуальное перекрытие связанных статей) с использованием категории членства исходящих ссылок статей.
  3. Наконец, пять основных терминов на основе предельной вероятности добавляются к набору меток-кандидатов.
  • Рейтинг кандидатов

В качестве дополнения к работе Lau et al. (2010) в статье используются различные меры лексической ассоциации между кандидатами на ярлыки и тематическими терминами. Чтобы измерить показатели ассоциации, они анализируют полную коллекцию статей англоязычной Википедии с помощью скользящего окна шириной 20 и вычисляют частоту терминов кандидатов на ярлыки и терминов темы. Мера ассоциации - это среднее значение между кандидатом на ярлык и 10 ключевыми терминами.

Меры лексической ассоциации между ярлыком и тематическими терминами темы-10:

  • Точечная взаимная информация (PMI)
  • T-тест Стьюдента
  • Коэффициент Дайса
  • Тест Пирсона 𝝌²
  • Отношение правдоподобия журнала
  • Две меры условной вероятности, описанные в Lau et al. (2010)

Также включается необработанное количество терминов и относительное количество терминов из топ-10 терминов темы в кандидате на ярлык. Наконец, они используют оценку поисковой системы для каждого ярлыка, запрашивая локальную копию английской Википедии с топ-10 тематическими терминами на основе поисковой системы Zettair, которая использует сходство терминов BM25. Оценка поисковой системы также усредняется среди 10 основных тематических терминов.

Автоматическая маркировка иерархических тем (Мао и др., 2012 г.)

Этот документ касается иерархического отношения между темами в задаче разметки тем для иерархических тем. В действительности большинство данных часто имеют иерархическую форму, что делает этот подход интересным для тех, кто имеет дело с такими данными. Чтобы получить иерархию тем данных, они сначала создают предварительные иерархии тем и метки, используя контролируемую иерархическую модель тем над своими коллекциями документов, и оценивают качество созданных меток, исправляя неточные метки.

  • Создание ярлыка кандидата

В статье используются те же методы, что и у Mei et al. (2007). Комбинация терминов Ngram Testing и топ-n тем извлекается как метки-кандидаты.

  • Рейтинг кандидатов

В статье определены четыре интуитивных предположения о структурных отношениях.

  1. Этикетка должна содержать репрезентативные и важные термины по данной теме.
  2. Для данной темы термины, которые чаще встречаются в ее дочерних темах, лучше подходят для ярлыков.
  3. Метки в верхней иерархии более общие, чем в нижней.
  4. Если одна метка встречается только в одной родственной теме, тогда как другие чаще встречаются в других родственных темах. (специфичность)

Они генерируют два метода оценки, чтобы включить вышеуказанные предположения, чтобы выбрать лучшую метку из иерархии тем. Их специально делят на два метода.

  • Рейтинг на основе взвешивания терминов

Они модифицируют схему TFIDF, чтобы включить структурную взаимосвязь между темами. Например, они вычисляют TFIDF каждой метки-кандидата по коллекциям документов для измерения предположения №1 и используют IDF для измерения предположения №4.

  • Рейтинг на основе статистической значимости

Этот метод используется для оценки того, различаются ли вхождения термина между документами, которым присвоена тема, и остальными документами со статистической значимостью, такими как дивергенция Дженсона-Шеннона (JSD). Это используется для описания предположения №2.

В документе сочетаются два метода путем умножения каждой метрики вместе и ранжирования на основе оценок.

Неконтролируемая графическая маркировка тем с использованием DBpedia (Hulpus et al., 2013)

В этой статье делается аналогичная попытка предоставить априорную информацию для создания меток-кандидатов с помощью DBpedia, которая по сути является графом знаний Википедии.

  • Создание ярлыка кандидата

Сначала из топ-n тематических слов (в статье используется n = 15) они генерируют исходные концепции (основные концепции), которые представляют собой заголовки статей DBpedia с использованием метода связывания и устранения неоднозначности DBpedia, описанного в [8]. Затем они извлекают смысловые графы, опрашивая все узлы, находящиеся не более чем в двух шагах от каждой исходной концепции, беря определенные типы ребер и объединяя смысловые графы через обычно включаемые узлы. Несвязные исходные концепции, которые не являются частью основного связного компонента, рассматриваются как шумовые концепции при условии, что согласованные тематические слова должны оставаться связанными. После удаления понятий шума основной связанный граф рассматривается как граф темы.

  • Рейтинг кандидатов

После извлечения графа тем задача состоит в том, чтобы определить наиболее центральное понятие (узел) графа и назначить его в качестве метки темы для данной темы. Предполагается, что «мы предполагаем, что узлы, которые играют важную структурную роль в графе, также имеют важное семантическое отношение к исходным концепциям». Для этого в статье вводятся различные меры центральности, где есть два важных корня центральности графа, рассматриваемых в статье:

  • Центральность по близости: узел важен, если он находится рядом со всеми другими узлами в сети. В тематических графах узлы с высокой степенью близости центральности указывают на понятия, которые семантически связаны, таким образом, имеют высокую связь с другими концепциями в теме.
  • Централизация посредничества: узел важен, если он способствует потоку информации, другими словами, действует как концентратор между другими узлами. В семантике узлы с высокой степенью близости центральности указывают на концепции, которые устанавливают короткие связи между другими концепциями в теме.

Интуитивно понятно, что узлы с высокой степенью централизации выбираются как репрезентативные метки для данной темы.

Представление тем с помощью изображений (Aletras, Stevenson, 2013)

Как следует из названия, была предпринята интересная попытка пометить каждую тему изображениями, а не текстами. Поскольку маркировка - это субъективный вопрос, например, зависящий от знаний пользователей в предметной области, кажется правильным подходом оставить читателям некоторую субъективность интерпретации изображения для данной темы, а не дать им окончательный ярлык. Этот метод имеет преимущества перед пометкой тем с помощью текста, поскольку изображения не зависят от языка.

  • Создание ярлыка кандидата

Термины топ-5 тем используются, чтобы запросить Google для извлечения 20 самых популярных изображений, которые используются в качестве кандидатов для каждой темы.

Извлеченные изображения содержат две информации: текстовую информацию, которая состоит из метаданных, извлеченных в результате вышеупомянутого поиска, по сути, объединенного заголовка веб-страницы + имени файла изображения и визуальной информации, которая извлекается с использованием низкоуровневых дескрипторов ключевых точек изображения, называемых SIFT, которые дают пакет визуальных слов (BOVW).

  • Рейтинг кандидатов

Подобно Hulpus et al. (2013), граф построен, где каждый узел представляет изображение-кандидат, а каждое ребро обозначает оценки сходства между двумя изображениями с использованием двух характеристик каждого изображения. Затем они используют Personalized PageRank (PPR) [12], который представляет собой модифицированный алгоритм PageRank, который выделяет определенные узлы в графе, чтобы PPR предпочитал изображения с информацией, аналогичной тематическим терминам.

Они используют 3 различных метрики для взвешивания краев графа: точечная взаимная информация (PMI) между изображениями с подсчетом совпадений, определенная в Википедии со скользящим окном 20, явный семантический анализ (ESA), который представляет собой меру сходства, основанную на знаниях, и визуальные особенности, извлеченные из изображения, в которых визуальные слова (описанный выше BOVW) используются для вычисления косинусного сходства между парой изображений.

Следуя методу ранжирования, изображению с наивысшим баллом PPR назначается репрезентативная метка изображения для каждой темы.

На пути к присвоению ярлыков темам с использованием словосочетания и агрегирования (Мехдад и др., 2013 г.)

Стремясь интегрировать семантические модели для обозначения тем, а не просто сосредоточить внимание на статистических моделях распределения слов, в этой статье используется новый подход для представления каждой темы с помощью наиболее репрезентативных фраз для данного набора предложений из данной темы.

  • Создание ярлыка кандидата

Чтобы извлечь фразы-кандидаты, они предварительно обрабатывают каждый тематический кластер с помощью лемм, основ, тегов частей речи, смысловых тегов и фрагментов. Они также ограничивают длину фраз-кандидатов до 5 н-граммов, которые не начинаются и не заканчиваются стоп-словами. Затем они используют TFIDF, позицию первого вхождения и длину фразы в качестве характеристик для обучения наивного байесовского классификатора и применяют контролируемую модель для извлечения фраз-кандидатов из собранного пула кандидатов.

  • Рейтинг кандидатов

После извлечения пула ключевых фраз из каждой темы они строят граф следования для каждого кластера тем, где узлы представляют ключевые фразы, а ребра обозначают отношения следования. Для определения взаимосвязи следования они определяют следующие случаи для обработки, где ph1 и ph2 являются ключевыми фразами соответственно:

  1. Если ph1 и ph2 имеют одинаковое значение, любой из них следует исключить.
  2. Если ph1 более информативен, ph2 следует за ph1.
  3. Если значение ph1 отличается от значения ph2, они оба должны остаться на графике.

После построения графика они сокращают ключевые фразы, используя три правила:

  1. В цепочке переходов мы выбираем фразу в корне цепочки и отсекаем остальные.
  2. Когда есть двунаправленное следствие, мы выбираем тот, у которого больше исходящих ребер.
  3. Когда есть неизвестные порождающие узлы (новая информация по отношению к другим), мы выбираем те, у которых нет входящих ребер.

После обрезки графа они объединяют фразы в два этапа.

  1. Обобщение фраз: при использовании WordNet, если два слова принадлежат одной и той же sysnet и не более 3 переходов по кратчайшему пути, замените оба слова общим родителем (наименьшим общим предком) и объедините их.
  2. Объединение фраз: объедините две фразы с помощью простого соединения и соединения через общих участников. [14]

После сокращения графика с помощью описанных выше шагов, если некоторые узлы не могут быть объединены еще больше, они используют все оставшиеся ключевые фразы в графе для представления каждой темы.

Автоматическая маркировка тематических моделей, извлеченных из Twitter, путем обобщения (Кано и др., 2014 г.)

В этой статье предлагается метод обобщения для обозначения каждой темы. Этот метод интересен тем, что существующие методы автоматической разметки тем зависят от внешних источников знаний, но они могут быть бесполезными, когда целевая коллекция текстовых данных не имеет внешних источников, от которых можно зависеть.

  • Создание ярлыка кандидата

В документе используются 4 различных алгоритма реферирования нескольких документов с учетом того, что документы соответствуют каждой теме.

  1. Sum Basic (SB): алгоритм реферирования на основе частоты, который взвешивает каждое предложение со средней вероятностью слов, а затем выбирает наиболее вероятное слово из наиболее вероятного предложения.
  2. Гибридный TFIDF (TFIDF): алгоритм суммирования на основе TFIDF.
  3. Максимальная предельная релевантность (MMR): это алгоритм ранжирования на основе релевантности, который позволяет избежать избыточности в коллекции, измеряя несходство между данными документами и ранее выбранными словами в ранжированном списке.
  4. Text Rank: алгоритм суммирования на основе графа, где каждая вершина обозначает каждое слово в коллекции и использует алгоритм PageRank для взвешивания каждого узла.

Таким образом, все слова в словаре в коллекции являются кандидатами для этого метода.

  • Рейтинг кандидатов

Кандидаты ранжируются на основе веса, рассчитанного в приведенных выше алгоритмах резюмирования, и верхние метки извлекаются на основе их оценок.

Термины с наивысшим рейтингом в каждом алгоритме используются для представления каждой темы, аналогично топ-10 терминов, используемых для описания каждой темы в модели LDA.

Автоматическая маркировка тем с помощью нейронных вложений (Бхатиа и др., 2016 г.)

Эта статья привносит нейронное встраивание в пространство обозначения тем и расширяет работу Lau et al. (2011) с помощью нейронных встраиваний (word2vec, doc2vec) извлеченных статей из Википедии для извлечения меток-кандидатов.

  • Создание ярлыка кандидата

Подобно методу, представленному в Lau et al. (2011), они используют заголовки статей Википедии в качестве потенциальных ярлыков, извлекаемых двумя поисковыми системами. Поскольку традиционная модель word2vec производит вектор слов для униграмм, они жадно разбирают каждую статью в Википедии и генерируют свои собственные модели word2vec и doc2vec. При векторном представлении с потенциальными метками они вычисляют косинусное сходство между 10 топовыми терминами и усредняют свои баллы, чтобы назначить балл для каждой метки. Они делают это как для моделей word2vec, так и для моделей doc2vec, и взвешивают их одинаково, чтобы получить метки-кандидаты, которые будут учитываться в методе ранжирования.

  • Рейтинг кандидатов

После создания меток-кандидатов на основе нейронных встраиваний они повторно ранжируют их на основе контролируемой модели обучения ранжированию с некоторыми следующими особенностями:

  1. Буквенная триграмма: на основе Kou et al. (2015) [16], эта функция измеряет сходство на уровне символов, состоящее из трехбуквенных граммов, чтобы измерить связь между ярлыками и каждым термином главной темы.
  2. PageRank: поскольку все метки-кандидаты являются действительными статьями в Википедии со страницами, оценки PageRank для каждой метки рассчитываются и вводятся в модель как одну из характеристик.
  3. NumWords: количество слов в данной метке.
  4. TopicOverlap: Лексическое перекрытие между названием кандидата и 10 наиболее популярными тематическими терминами.

Контролируемая модель обучается по золотым стандартным меткам от людей-аннотаторов с использованием модели регрессии опорных векторов (SVR) по этим четырем функциям.

После обучения модели SVM каждая метка с извлеченными функциями вводится в модель SVM, и модель выводит ранжирование меток-кандидатов.

Другие методы, которые следует рассмотреть

Стоило рассмотреть и несколько других методов. Herzog et al. (2018) [18] недавно опубликовал статью с аналогичными методами, примененную к базе данных выступлений Палаты общин Великобритании. Smith et al. (2017) [19] также использует метод статей Википедии для маркировки, но выделяет различные лингвистические шаблоны, которые могут быть использованы для улучшения будущих алгоритмов. Наконец, Allahyari et al. (2017) [3] представляет модель KB-LDA, которая по концепции аналогична Mimno et al. (2007) [20] модель. Модель KB-LDA включает в себя онтологию в качестве базы знаний для автоматической маркировки тем. Для уточнения он использует базу знаний, чтобы построить график из основных слов каждой темы и найти наиболее доминирующую тему среди кандидатов. Мао и др. (2016) [17] также представляет новую структуру, использующую маркированный LDA (LLDA) для быстрой маркировки тем с использованием хеширования с сохранением сходства для быстрой маркировки вновь возникающих тем путем создания базы данных помеченных тем и сведения проблемы маркировки к проблеме KNN.

Примечание. Это побочный проект по расширенному тематическому моделированию, который ведет Дэвид Мимно @ Корнелл.

Ссылки

[1] Q. Mei, X. Shen, and C.X. Чжай. 2007. Автоматическая разметка полиномиальных тематических моделей. В материалах 13-й международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных, страницы 490–499. ACM.

[2] Мехди Аллахьяри, Сейедамин Пурийе, Крыс Кочут и Хамид Р. Арабния. 2017b. Подход к моделированию тем, основанный на знаниях, для автоматического обозначения тем. МЕЖДУНАРОДНЫЙ ЖУРНАЛ ПЕРЕДОВЫХ КОМПЬЮТЕРНЫХ НАУК И ПРИЛОЖЕНИЙ 8 (9): 335–349.

[3] Дж. Лау, К. Гризер, Д. Ньюман и Т. Болдуин. 2011. Автоматическая маркировка тематических моделей. В материалах 49-го ежегодного собрания Ассоциации компьютерной лингвистики: технологии человеческого языка, том 1, страницы 1536–1545. Ассоциация компьютерной лингвистики.

[4] Дж. Карбонелл и Дж. Гольдштейн. Использование MMR, повторного ранжирования на основе разнообразия для переупорядочивания документов и составления резюме. В Трудах СИГИР '98, стр. 335–336, 1998.

[5] Д. Магатти, С. Калегари, Д. Чуччи и Ф. Стелла. 2009. Автоматическая маркировка тем. В области проектирования и применения интеллектуальных систем, 2009. ISDA’09. Девятая международная конференция, стр. 1227–1232. IEEE.

[6] Дж. Лау, Д. Ньюман, С. Карими и Т. Болдуин. 2010. Лучший выбор тематических слов для обозначения тем. В материалах 23-й Международной конференции по компьютерной лингвистике: плакаты, страницы 605–613. Ассоциация компьютерной лингвистики.

[7] Иоана Хулпус, Конор Хейс, Марсель Карнштедт и Дерек Грин. 2013. Неконтролируемая графическая маркировка тем с помощью dbpedia. В материалах шестой международной конференции ACM по веб-поиску и интеллектуальному анализу данных, страницы 465–474. ACM

[8] И. Халпус, К. Хейс, М. Карнштедт и Д. Грин. Мера на основе собственных значений для устранения неоднозначности слов. В FLAIRS 2012, 2012.

[9] Сянь-Ли Мао, Чжао-Ян Мин, Чжэн-Цзюнь Чжа, Тат-Сэн Чуа, Хунфэй Янь и Сяомин Ли. 2012. Автоматическая маркировка иерархических тем. В материалах 21-й Международной конференции ACM по управлению информацией и знаниями (CIKM ’12), Шератон, Мауи, Гавайи.

[10] Иоана Хулпус, Конор Хейс, Марсель Карнштедт и Дерек Грин. 2013. Неконтролируемая графическая маркировка тем с помощью dbpedia. В материалах шестой международной конференции ACM по веб-поиску и интеллектуальному анализу данных, страницы 465–474. ACM

[11] Николаос Алетрас и Марк Стивенсон. 2013. Представление тем с помощью изображений. В материалах NAACL-HLT, страницы 158–167.

[12] Тахер Хавеливала, Сепандар Камвар и Глен Джех. 2003. Аналитическое сравнение подходов к персонализации PageRank. Технический отчет 2003–35, Stanford InfoLab.

[13] Яшар Мехдад, Джузеппе Каренини, Раймон Т Нг и Шафик Джоти. 2013. К разметке тем с помощью фразового следования и агрегации. В Протоколах NAACL-HLT, страницы 179–189.

[14] Эхуд Рейтер и Роберт Дейл. 2000. Построение систем генерации естественного языка.

[15] С. Бхатия, Дж. Х. Лау и Т. Болдуин, «Автоматическая маркировка тем с помощью нейронных вложений», 26-я Международная конференция COLING по компьютерной лингвистике, 2016 г., стр. 953–963.

[16] Ванцю Коу, Ли Фанг и Тимоти Болдуин. 2015. Автоматическая маркировка тематических моделей с использованием векторов слов и векторов буквенных триграмм. В материалах 11-й конференции азиатских информационно-поисковых обществ (AIRS 2015), страницы 229–240, Брисбен, Австралия.

[17] Сянлин Мао, И-Цзин Хао, Цян Чжоу, Вэньцин Юань, Лайнер Ян, Хэйан Хуанг: новая быстрая структура для разметки тем, основанная на хешировании с сохранением сходства. COLING 2016: 3339–3348

[18] А.Герзог, П. Джон, С.Дж. Михайлов. Перенести маркировку тем с помощью предметной базы знаний: анализ выступлений Палаты общин Великобритании за 1935–2014 гг.

[19] А. Смит, Т. Ю. Ли, Ф. Пурсабзи-Сангде, Дж. Бойд-Грабер, Н. Элмквист, Л. Финдлейтер. Оценка визуальных представлений для понимания темы и их влияния на тему, созданную вручную. В ACL, 2017

[20] Д. Мимно, В. Ли и А. МакКаллум. Смеси иерархических тем с распределением Пачинко. В Proc. 24-я Международная конференция по машинному обучению (ICML), Корваллис, Орегон, 2007.