От виртуальных помощников до модерации контента анализ настроений имеет широкий спектр вариантов использования. Модели ИИ, способные распознавать эмоции и мнения, находят множество применений во многих отраслях. Поэтому растет интерес к созданию эмоционально интеллектуальных машин. То же самое можно сказать и об исследованиях, проводимых в области обработки естественного языка (НЛП). Чтобы осветить часть работы, проделанной в этой области, ниже приведены пять основных статей по анализу настроений и классификации настроений.

1. Глубокое обучение для обнаружения языка ненависти в твитах

Одним из наиболее полезных применений моделей классификации настроений является обнаружение языка ненависти. В последнее время поступают многочисленные сообщения о тяжелой жизни сотрудников модерации контента. Будем надеяться, что с развитием автоматического обнаружения языка ненависти и других моделей модерации контента модераторы-люди, фильтрующие графический контент, больше не будут нужны.

В этой статье команда определяет свою задачу по обнаружению языка ненависти как классификацию того, является ли конкретный пост в Твиттере расистским, сексистским или ни тем, ни другим. Для этого исследователи экспериментируют с набором данных, содержащим 16 000 твитов. В наборе данных 1972 твита были помечены как расистские. 3383 человека были признаны сексистами. Остальные твиты были классифицированы как не содержащие ни расистских, ни сексистских настроений. В конце концов, исследование показывает, что некоторые методы глубокого обучения оказываются более эффективными, чем современные методы n-грамм для обнаружения языка ненависти.

Опубликовано/последнее обновление — 1 июня 2017 г.

Авторы и участники — Пинкеш Баджатия (IIIT-H), Шашанк Гупта (IIIT-H), Маниш Гупта (Microsoft), Васудева Варма (IIIT-H)

"Прочитай сейчас"

2. DepecheMood++: двуязычный лексикон эмоций

Есть два основных пути, с помощью которых вы можете приобрести лексикон: создание (часто с использованием краудсорсинговых аннотаторов) или получение из ранее существовавших аннотированных корпусов. В этой статье исследователи экспериментируют, чтобы увидеть, можно ли использовать простые методы, такие как фильтрация документов, отсечение частоты и предварительная обработка текста, для улучшения современного лексикона под названием DepecheMood. Лексикон, состоящий из аннотированных новостных статей, был первоначально создан Стайано и Гуэрини в 2014 году для анализа эмоций.

В этой статье исследователи объясняют, как они опирались на лексикон. Новая версия, выпущенная в рамках этого исследования, DepecheMood++, доступна на английском и итальянском языках.

Опубликовано/последнее обновление — 8 октября 2018 г.

Авторы и участники — Оскар Араке (Мадридский политехнический университет), Лоренцо Гатти (Университет Твенте), Марко Герини (стипендиат AdeptMind, Институт Бруно Кесслера), Якопо Стайано (Концерт искусственного интеллекта)

"Прочитай сейчас"

3. Выразительно вульгарно: социодинамика вульгарности

Учитывая, что большинство мыслей можно легко перефразировать, чтобы исключить вульгарность, использование явных слов указывает на сильное желание послать конкретное сообщение. В этом исследовании исследователи из Техасского и Пенсильванского университетов провели крупномасштабный анализ вульгарных слов в постах в Твиттере на основе данных. В частности, их исследование анализирует социокультурные и прагматические аспекты вульгарной лексики в твитах. В этой статье команда пытается ответить на следующие вопросы: отличается ли выражение вульгарности и его функция в зависимости от демографических характеристик автора? Влияет ли вульгарность на восприятие чувств? Помогает ли моделирование вульгарности явно предсказывать настроения?

В этом исследовании исследователи собрали набор данных из 6800 твитов. Затем девять аннотаторов оценили твиты по тональности по пятибалльной шкале. Примечательно, что данные также включают демографические данные (пол, возраст, образование, доход, религиозное происхождение и политическая идеология) тех, кто разместил твиты. Этот набор данных является одним из немногих открытых наборов данных, который включает не только посты в Твиттере, но и подробную информацию о каждом постере. Кроме того, это одно из первых исследований того, как моделирование вульгарных слов может повысить эффективность анализа настроений.

Опубликовано/последнее обновление — август 2018 г.

Авторы и участники — из Техасского университета в Остине, Изабела Качола, Эрик Холгейт и Джуньи Джесси Ли. Даниэль Преотюк-Пьетро из Пенсильванского университета

"Прочитай сейчас"

4. Многоязычная классификация настроений в Твиттере: роль комментаторов-людей

Из статей по анализу настроений в этом списке это единственное исследование, в котором подчеркивается важность комментаторов-людей. В этом эксперименте по автоматической классификации настроений в Твиттере исследователи из Института Йожефа Стефана анализируют большой набор данных твитов с аннотациями настроений на нескольких языках.

В частности, команда пометила 1,6 миллиона твитов на 13 разных языках. Используя эти аннотированные твиты в качестве обучающих данных, команда построила несколько моделей автоматической классификации настроений.

Их эксперименты привели к ряду интересных выводов. Во-первых, исследователи заявляют, что нет статистически значимой разницы между эффективностью лучших моделей классификации. Далее, общая точность моделей классификации не коррелирует с производительностью при применении к упорядоченной проблеме классификации настроений с тремя классами. Наконец, они заявляют, что более эффективно сосредоточиться на точности обучающих данных, а не на типе используемой модели классификации.

Опубликовано/последнее обновление — 5 мая 2016 г.

Авторы и участники — Игорь Мозетич, Миха Грчар и Ясмина Смайлович из отдела технологий знаний Института Йожефа Стефана.

"Прочитай сейчас"

5. MELD: мультимодальный многосторонний набор данных для распознавания эмоций

В этой статье авторы объясняют растущую популярность исследований распознавания эмоций в разговорах (ERC). Кроме того, они заявляют, что в полевых условиях не хватает крупномасштабных баз данных эмоциональных разговоров. Чтобы исправить это, исследователи предлагают мультимодальный набор данных EmotionLines (MELD), который является расширением и усовершенствованием исходного набора данных EmotionLines.

MELD включает 13 000 высказываний из 1433 диалогов из популярного телесериала Друзья. Набор данных фокусируется на диалогах с более чем двумя говорящими. Кроме того, каждое высказывание снабжено ярлыками эмоций и настроений. Исходный набор данных EmotionLines содержит только текст диалогов. Поэтому его можно использовать только для текстового анализа. Основным усовершенствованием набора данных является добавление звуковых и визуальных модальностей. MELD включает произносимые слова, тон голоса, которым они произносятся, и выражение лица говорящего.

Используя этот набор данных, исследователи установили надежную основу для распознавания эмоций в диалогах с более чем двумя говорящими.

Опубликовано/последнее обновление — 4 июня 2019 г.

Авторы и участники: Суджанья Пориа (SUTD), Деваманью Хазарика (Национальный университет Сингапура), Навонил Маджумдер (Национальный политехнический институт Мексики), Гаутам Найк (Наньянский технологический университет), Эрик Камбрия (Наньянский технологический университет) ), Рада Михалча (Мичиганский университет)

"Прочитай сейчас"

Цель создания эмоционально интеллектуальных машин амбициозна. Анализ настроений и их классификация являются необходимым шагом на пути к достижению этой цели. Надеемся, что приведенные выше статьи по анализу настроений помогут вам лучше понять работу, которая в настоящее время проводится в этой области.

Дополнительные статьи об анализе настроений и машинном обучении см. по адресу:

Первоначально опубликовано на Lionbridge AI