Проблемы тематического моделирования в микроблогах

Краткий текст обычно создается пользователем из-за отсутствия структуры, наличия шума и отсутствия контекста, что затрудняет моделирование машинного обучения.

Тематическое моделирование направлено на выявление закономерностей в корпусе текста и извлечение основных тем, сущностей или тем в зависимости от того, как они упоминаются в конкретной модели.

Тематическое моделирование, как известно, сложнее, чем текст короче. Например, когда корпус состоит из твитов, а не из новостных статей.

В этой статье я хочу остановиться на основных причинах того, почему алгоритмы тематического моделирования не работают с коротким, созданным пользователем текстом. Я составил его в результате систематического обзора литературы по тематическому моделированию и анализу настроений, который я провел в рамках своей магистерской программы.

1. Нет общепринятого определения того, что такое краткий текст.

В академической литературе не существует единого определения того, что такое краткий текст.

Это означает, что при чтении статей об инновациях в этой области вы должны знать, что ученые работают с наборами данных с разной длиной текста, в результате чего одни модели работают лучше, чем другие.

Какие типы данных используются в таких исследованиях чаще всего:

  • отзывы пользователей о товарах и услугах
  • Данные пользовательского контента из социальных сетей (твиты, сообщения и комментарии Reddit, сообщения в Facebook, комментарии к видео на YouTube - все они сильно различаются по длине)
  • мгновенные сообщения
  • обмен короткими сообщениями
  • общедоступные комментарии на форуме
  • заголовки новостей

2. Отсутствие контекста.

Короткий текст сложен для задач выявления темы и извлечения настроений, поскольку в нем отсутствует контекстная информация, что приводит к проблеме разреженности данных.

В результате общие модели, такие как набор слов, становятся непригодными для семантического анализа коротких текстов, поскольку они игнорируют порядок и семантические отношения между словами.

Тем не менее, исследования финансовых рынков обзор анализа текста демонстрируют, что в большинстве рассмотренных выборок метод набора слов используется как средство выбора характеристик. Хотя некоторые подходы несколько неэффективны, они остаются популярными в академическом сообществе.

3. Необходимость обширной настройки

В настоящее время качество тематической модели зависит от манипуляций и уточнений, которые часто выполняются вручную и требуют длительной тонкой настройки параметров модели.

Одна из самых серьезных проблем в тематическом моделировании - это проблема конфигурации.

Перед запуском алгоритма тематического моделирования должна произойти предварительная обработка данных, на этапе которой удаляются стоп-слова и общие слова темы (TGW). Удаление общих слов по теме обычно выполняется вручную, что требует больших затрат времени и усилий.

TGW являются проблематичными, поскольку они могут изменить результаты тематического моделирования, поскольку они более вероятны в корпусе, поэтому с большей вероятностью будут сочетаться с другими словами, что снижает достоверность выявленных тем пар слов. Возможна автоматизация, которая потенциально может повысить эффективность тематической модели.

Ли, Чжан и его коллеги предлагают схему энтропийного взвешивания (EW), которая основана на условной энтропии, измеряемой совместной встречаемостью слов, в сочетании с существующими схемами взвешивания терминов. Это может автоматически вознаграждать информативные слова, в результате чего бессмысленным словам присваивается меньший вес, что повышает эффективность моделирования тем.

4. Развитие предвзятости в модели в результате человеческого взаимодействия.

В исследовании 2019 года обсуждается, как взаимодействие человека с тематическими моделями также можно рассматривать как еще одну исследовательскую задачу.

После проведения двух индивидуальных экспериментов с пользователями, не являющимися экспертами, ученые предлагают разработать тематическое моделирование с участием человека в цикле как форму взаимодействия со смешанными инициативами, при которой система и пользователь работают совместно с целью оптимизации тематической модели. .

5. Необходимость обширной предварительной обработки данных.

Эффективный выбор метода предварительной обработки считается приоритетом исследования, и исследования посвящены этой теме. Эти исследования показывают с помощью методов сравнительного анализа повышение эффективности моделей машинного обучения с использованием твитов в качестве данных.

Исследование и подготовка данных включают, помимо прочего, написание функций для фильтрации шума из данных, настройку среды разработки, масштабирование и кодирование.

Такой процесс обычно называется предварительной обработкой и включает в себя три основных этапа: стандартизацию терминов / объектов, шумоподавление и нормализацию слов, каждый из которых состоит из различных операций анализа текста, которые необходимо выполнить.

Twitter и другие социальные сети также представляют проблему, связанную с сбором нерелевантных данных в рамках набора данных, что влияет на производительность модели. Эту проблему можно решить, выполнив дополнительные шаги по фильтрации набора данных от нерелевантных записей.

6. Уязвимость переобучения.

В исследовании 2018 года также утверждается, что анализ тональности с использованием моделей на уровне темы и на уровне слов уязвим для переобучения из-за нехватки данных.

Это прямой результат характеристик данных, а именно лингвистической сложности коротких текстов, создаваемых пользователями, и их неправильности.

7. Отсутствие учета сокращений и сленга.

Кроме того, микроблоггинг предполагает использование гибкого языка, включая сокращения и сленг, в отличие от структурированных предложений.

Это единодушно считается более сложным, чем традиционный текст для алгоритмического анализа.

Одной из проблем языковой интерпретации является также использование сарказма, образов, метафор, сравнений, юмора и образного языка, которые опираются на предыдущие знания и / или контекст, поскольку они влияют на точность классификации как тем, так и настроений. .

8. Отсутствие золотых стандартов в академических исследованиях приводит к неоднозначности результатов.

Отсутствие золотых стандартов и аннотированных данных в области моделирования тем и анализа настроений приводит к снижению академической строгости многих исследований из-за субъективности и двусмысленности.

Аннотации сами по себе трудоемки и сложны, поэтому в большинстве исследований используются алгоритмы обучения без учителя.

Последние мысли

Признание ограничений опубликованных исследований считается жизненно важным для точного представления текущих знаний по теме.

Несмотря на то, что существует значительное количество значительных исследований, которые касаются как тематического моделирования, так и анализа тональности короткого текста, все еще существует потребность в уточнении и оптимизации модели для повышения точности и оптимизации вывода.

Тематическое моделирование может стать конкурентным преимуществом для предприятий, стремящихся использовать методы НЛП для улучшенной прогнозной аналитики, поэтому понимание того, как сделать это эффективно с пользовательским текстом, является решающим шагом в социальном понимании.