Разработка функций для классификации тональности коротких текстов в НЛП

В этой статье (Функции на основе лексики тональности для анализа тональности в кратком тексте) рассказывается о многих функциях, которые могут помочь в понимании ориентации слов как на синтаксическом, так и на семантическом уровнях для определения тональности данного фрагмента. короткого текста. Ниже приводится краткий обзор каждого из них -

Word n-граммы - авторская игра и извлечение элементов Uni-gram и Bi-gram из текста без какой-либо предварительной обработки, такой как выделение или остановка. -удаление слов. Чтобы также контролировать влияние случайных или шумных событий, они удаляют элементы, которые встречаются ниже определенного порогового значения.

Особенности отрицания -. В соответствии с этим они добавляют суффикс отрицания (_NEG) ко всем словам, которые появляются в области отрицания, которая определяется отрицанием. ключ и маркер пунктуации. Они предварительно составляют список отрицательных слов, таких как ( никогда | нет | ничего | нигде и т. д.), и список знаков пунктуации, например (. :;!?). Так, например, если предложение было - мне не нравится это кофейное заведение. Они преобразовали бы это в "Мне не нравится_NEG this_NEG coffee_NEG place_NEG". а затем, в конце концов, все эти слова добавляются обратно в пространство функций.

Словарь Twitter - Все термины или любые сокращения, присутствующие в тексте, нормализованы на основе словаря тональности, созданного с использованием данных Twitter. Этот словарь содержит определенные выражения Twitter, а также смайлики с их значением или соответствующим настроением (например, gr88 заменен на отличный, :) заменен на очень-счастливый)

Лексиконы настроений. Чтобы использовать эту функцию, авторы сначала создают два набора словарей из различных источников, таких как SentiWordNet, Sentiment140 Lexicon, Bing Liu Lexicons и т. д. создается вручную, а некоторые - автоматически. Полный список см. в документе.

После того, как часть создания будет завершена, система извлечет 4 функции из созданных вручную лексиконов и 6 из автоматических. Из вручную составленных лексиконов они фокусируются на извлечении количества положительных слов, количества отрицательных слов, отношения количества положительных слов к количеству отрицательных слов , и полярность последнего слова, извлекаемого для каждого предложения. Из автоматически составленных лексиконов они добавляют две дополнительные функции: сумму положительных оценок и сумму отрицательных оценок на основе PMI (Точечная взаимная информация ) техника.

Z-оценка - Поскольку Z-оценка позволяет различать важность термина в каждом классе. При этом они вычисляют Z-оценку для каждого члена ti в классе Cj (tij), вычисляя его относительную частоту tfrij термина в конкретном классе Cj, а также среднее значение (meani), которое является вероятностью термина по всему корпусу умноженное на количество терминов в классе Cj и стандартное отклонение (sdi) члена ti в соответствии с базовым корпусом.

Таким образом, для этого метода они добавляют счетчик количества слов, имеющих оценку Z выше порогового значения в каждом классе, т.е. положительный, отрицательный и нейтральный в качестве характеристик.

Затем они также рассматривают несколько семантических функций, таких как функции словаря, функции темы и т. д. Некоторые из них описаны ниже -

Возможности коричневого словаря -. Каждое слово сопоставляется с одним из 1000 кластеров, представленных в кластерах слов Twitter группы CMU ARK. Эти кластеры были созданы из ок. 56 миллионов твитов. 1000 функций добавляются в пространство функций, где каждая функция представляет собой количество слов в тексте, сопоставленных каждому кластеру.

Тематические особенности -. Они используют методы тематического моделирования, такие как LDA, для определения 10 тем в обучающих данных. Затем для каждого предложения в наборе тестов они добавляют список из 10 функций, каждая из которых соответствует количеству слов, назначенных каждой теме для этого предложения.

При желании вы можете ознакомиться с резюме других исследовательских работ, которые я написал.

Так что да, это все для этого блога. Не стесняйтесь читать статью целиком и говорить «Привет» авторам и ценить их вклад -

⏩ Название статьи: Особенности лексики настроений для анализа тональности в кратком тексте ⏩ Статья: Ссылка ⏩ Автор: Хусам Хамдан, Патрис Беллот, Фредерик Бешет

Надеюсь, вам понравилось читать этот блог и вы узнали что-то новое сегодня. Спасибо за уделенное время!