Задний план

Контекст

В контексте ori.smartdocuments.ai мы применяем различные методы НЛП для извлечения информации из документов. Внутреннее название нашего прототипа — ORI: мы работаем с документами, предоставленными муниципалитетами Нидерландов (Open Raadsinformatie), включая в основном протоколы заседаний, приложения и другие сопутствующие документы.

Эти документы неструктурированы и в основном предоставляются в виде текстовых документов PDF, в основном вместе с извлеченным текстом. В некоторых случаях документы сканировались с распечаток, а затем оцифровывались с помощью OCR. Некоторые документы содержат частично или исключительно иллюстрации, изображения, таблицы или другую нетекстовую информацию. Подводя итог, можно сказать, что документы очень разнообразны по оформлению и содержанию и часто зашумлены.

Целью нашего подхода к тематическому моделированию является облегчение двух вариантов использования:

  1. Исследование: пользователи просматривают коллекцию без конкретной цели.
  2. Семантический поиск: пользователи интересуются определенной темой, но не всегда могут найти все релевантные документы по определенным ключевым словам.

Тематическое моделирование эффективно как на уровне документа, так и на уровне коллекции:

  • Каждый отдельный документ связан с одной или несколькими темами.
  • Документы в наборе (вся коллекция или любое подмножество) сгруппированы (сгруппированы) таким образом, что содержание (темы) внутри кластера похоже, тогда как их тематическое перекрытие с документами других кластеров сведен к минимуму.

Формализация задачи

Задача моделирования темы LDA заключается в разработке математической формализации, которая моделирует приблизительное представление о том, что люди воспринимают как тему. Это изначально сложно, потому что определение темы очень субъективно и зависит от контекста; эта трудность оставлена ​​в стороне в следующем.

Основное предположение здесь состоит в том, что документ представляет собой фрагмент текста, в котором обсуждается одна или несколько тем. Таким образом, документ можно оформить как распределение по темам. Интуитивно мы ожидаем, что в документе будет обсуждаться одна или несколько тем; распределение по темам представляет это, поскольку оно обычно имеет большие значения для нескольких тем и значения, близкие к нулю для всех остальных тем.

LDA (латентное распределение Дирихле) (Blei, Ng, and Jordan 2003) предложил неконтролируемый статистический подход, который формализует тематическую модель с помощью бета-распределения, состоящего из двух вероятностных распределений:

  • каждая «тема» представлена ​​как распределение вероятностей слов, которое определяет вероятность того, что слово принадлежит теме.
  • распределение по темам документа – это распределение по вероятностям тем, которое определяет вероятность того, что любое слово в документе относится к теме.

Объединение этих вероятностей определяет вероятность того, что каждое конкретное слово в документе относится к определенной теме.

Примечание: вероятность слова в одной теме не зависит от его вероятности в другой теме. Это свойство позволяет LDA работать с неоднозначными словами: одно слово может иметь одинаковое значение для нескольких тем. Для этой цели лингвистическая причина неоднозначности не имеет значения.

Темы и человеческая интерпретируемость

В тематической модели LDA количество тем в коллекции документов является фиксированным гиперпараметром, который выбирается пользователем/разработчиком. Часто это сложно, потому что «тема» в модели не обязательно соответствует тому, что люди воспринимают как тему.

Темы в модели могут быть очень похожи друг на друга, т.е. иметь похожее распределение слов. В таких случаях «человеческая тема» может соответствовать нескольким темам в модели. Следовательно, согласование количества тем в модели с ожидаемым количеством «человеческих тем» обычно не дает наилучших результатов.

Кроме того, в модели обычно имеется множество (часто до ⅓) «других» (или «мусорных») тем, которые содержат в основном общие и очень частые слова, не передающие особого значения.

Было предпринято несколько подходов к маркировке тем, созданных моделью LDA, чтобы сделать их более понятными для людей, с спорным успехом; даже обозначение темы довольно субъективно и зависит от случая.

Простые подходы включают вывод n наиболее весомых слов по каждой теме или слов (или фраз) с наибольшим количеством баллов TF-IDF в коллекции. Более продвинутые подходы используют внешние базы знаний (Алетрас и др. 2014), синтаксическую информацию (Майя и др. 2013) и комбинации нескольких подходов (Лау и др. 2011).

Оценка модели

Будучи методом неконтролируемого машинного обучения, LDA может оценить модель темы по набору текстовых документов без какой-либо дополнительной информации, такой как добавленные вручную аннотации. Вероятности в двух вышеупомянутых распределениях (темы-слова и документы-темы) итеративно уточняются, пока не сойдутся.

При «изучении» (оценке) модели каждому слову в каждом документе изначально назначается случайная тема. Это приводит к начальному распределению слов темы и начальному распределению темы по документу. Оба в значительной степени однородны после этого первого шага.

В последующей итерации каждое слово переназначается путем выборки темы из дистрибутивов, созданных в предыдущей итерации. Этот итеративный процесс продолжаетсяв течение сотен или тысяч итераций, в результате чего два распределения в конечном итоге сходятся, т. е. оба распределения больше не изменяются (значительно) после новой итерации.

Количество итераций, необходимых для конвергенции, в основном зависит от размера коллекции документов и количества тем.

Обратите внимание, что этот метод итерации до сходимости дает правильный результат и формирует довольно интуитивный подход. Однако он также имеет большую вычислительную сложность, что приводит к резкому увеличению времени выполнения даже для текстовых коллекций среднего размера. Поэтому для аппроксимации модели LDA с гораздо меньшими вычислительными затратами по сравнению с наивным подходом были предложены методы, включая вариационный вывод (Blei, Ng, and Jordan 2003) и выборка Гиббса (Wei and Croft 2006). Использование онлайн-обучения (Хоффман, Бах и Блей, 2010) облегчает параллельные вычисления модели LDA и еще больше сокращает время оценки до доли.

Темы документов

С полученным распределением слов (то есть тем) мы можем оценить распределение тем для любого нового документа, независимо от того, был ли он в исходном наборе данных, используемом для оценки модели, или нет. Это работает так же, как и при оценке модели: для каждого слова в документе рисуется тема в соответствии с распределением слов по темам, что приводит к распределению тем для данного документа.

Как и в процессе оценки, это повторяется итеративно. После первой итерации каждое слово в документе переназначается теме в соответствии с двумя распределениями: распределением слов по теме из модели и распределением по теме документа из предыдущей итерации. Этот процесс сходится после нескольких итераций, потому что распределение тематических слов теперь статично. В конце концов, каждое слово в документе назначается теме, обычно большинство или все слова относятся к одной или нескольким темам.

Из отдельных назначений тем и слов распределение тем для всего документа рассчитывается прямым способом, оно просто соответствует части слов в документе, назначенной теме:

слово1 слово2 слово3 слово4 слово5
тема1 тема1 тема2 тема1 тема3

Следовательно, это распределение тем документа:

  • тема1: 0,6
  • тема2: 0,2
  • тема 3: 0,2
  • темаX: 0.0

Как упоминалось ранее, «тема» в этой модели не обязательно соответствует человеческой интуиции. Таким образом, ожидается, что тематически похожие документы будут иметь схожее распределение тем, но они не обязательно связаны с одной конкретной темой в модели, даже если они обсуждают только одну тему в соответствии с человеческой интерпретацией.

Приложения

Модель LDA создает распределения тем документов, которые можно интерпретировать как векторы из k измерений, где k равно количеству тем. Следовательно, установленные векторные алгоритмы могут применяться для различных вариантов использования.

Кластеризация документов

Алгоритмы кластеризации, такие как k-средние, могут применяться к векторам тем документов для идентификации кластеров документов. С этой целью для каждого документа в коллекции оценивается распределение по темам, чтобы они были встроены в единое векторное пространство. Опять же, никаких человеческих аннотаций не требуется; однако результирующие кластеры остаются такими же абстрактными, как и тематические распределения, если только они не помечены вручную.

Коллекции могут быть динамическими, например, являться результатом поиска по ключевым словам или фильтрации (документы из определенного источника, периода времени и т. д.). Отображение кластеров документов в коллекции облегчает исследовательский подход, при котором пользователь может просматривать подгруппы документов.

Количество кластеров (k) не обязательно должно равняться количеству тем. Это результат вышеупомянутых свойств тематической модели LDA, которая обычно содержит избыточные и зашумленные темы.

Связанные документы

Связанные документы обычно отображаются пользователю при отображении документа (подробное представление). Пользователь может переходить по ссылкам на связанные документы, чтобы найти в коллекции документы, в которых обсуждаются похожие темы, даже если они используют разные формулировки (семантический поиск).

Как и в сценарии кластеризации, похожие или связанные документы идентифицируются путем поиска документов с похожим распределением тем. Это распределение снова интерпретируется как вектор, что позволяет применять геометрические метрики, такие как косинусное расстояние, евклидово расстояние (норма L2) или манхэттенское расстояние (или геометрия такси, норма L1).

Измеряя расстояние между документами, другие документы можно ранжировать относительно их сходства с исходным документом. Однако это не дает бинарного понятия «релевантный» или «нерелевантный».

Связано или нет?

В очень больших коллекциях документов с достаточно большим количеством фактически связанных документов (например, всемирная паутина) бинарное различие между релевантными и нерелевантными не требуется; пользователю показаны первые n наиболее похожих документов, которые всегда (более или менее) связаны между собой.

С другой стороны, в небольших коллекциях документов нам нужно определить, что связано, а что нет. В противном случае список первых n наиболее «связанных» документов, скорее всего, будет содержать документы, которые на самом деле воспринимаются пользователем как нерелевантные.

В такой настройке порог устанавливается для обеспечения бинарного решения: каждый документ со схожестью выше порога (в зависимости от метрики схожести и распределения корпуса документов) считается связанным, а все остальные — несвязанными. .

В результате получается переменное количество «связанных» документов на документ, включая ноль.

Классификация документов

В сценарии классификации документов задача состоит в том, чтобы присвоить документам искусственные метки. Это контролируемая задача машинного обучения, для которой требуется обучающий набор с документами, которые были помечены вручную. Затем задача автоматического классификатора состоит в том, чтобы присвоить новым документам правильную метку.

Распределения тем документов, рассчитанные с помощью тематической модели LDA, оказались подходящими для задач классификации: это был первоначальный вариант использования, представленный (Blei, Ng, and Jordan 2003). Распределения по темам документов можно использовать как для простых алгоритмов классификации, таких как k ближайших соседей, так и для любых более сложных алгоритмов.

использованная литература

Алетрас, Николаос, Тимоти Болдуин, Джей Хан Лау и Марк Стивенсон. 2014. «Представление меток тем для изучения цифровых библиотек». В Совместной конференции IEEE/ACM по цифровым библиотекам, 239–48. Лондон, Соединенное Королевство: IEEE. https://doi.org/10.1109/JCDL.2014.6970174.

Блей, Дэвид М., Эндрю Ю. Нг и Майкл И. Джордан. 2003. «Скрытое распределение Дирихле». Journal of Machine Learning Research 3 (март): 993–1022.

Хоффман, Мэтью, Фрэнсис Р. Бах и Дэвид М. Блей. 2010. «Онлайн-обучение скрытому распределению Дирихле». В Advanced in Neural Information Processing Systems 23, под редакцией Дж. Д. Лафферти, С. К. И. Уильямса, Дж. Шоу-Тейлора, Р. С. Земеля и А. Кулотты, 856–864. Curran Associates, Inc. http://papers.nips.cc/paper/3902-online-learning-for-latent-dirichlet-allocation.pdf.

Лау, Джей Хан, Карл Гризер, Дэвид Ньюман и Тимоти Болдуин. 2011. «Автоматическая маркировка тематических моделей». Материалы 49-го ежегодного собрания Ассоциации компьютерной лингвистики: технологии человеческого языка, июнь, 1536–1545.

Майя, Арун С., Джон П. Томпсон, Франсиско Лоайса-Лемос и Роберт М. Рольфе. 2013. «Исследовательский анализ сильно разнородных коллекций документов». ArXiv:1308.2359 [Cs], август. http://arxiv.org/abs/1308.2359.

Вэй, Син и В. Брюс Крофт. 2006. «Модели документов на основе LDA для специального поиска». В Материалы 29-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, 178–185. СИГИР ’06. Нью-Йорк, штат Нью-Йорк, США: ACM. https://doi.org/10.1145/1148170.1148204.