Гуманизирующая классификация эмоций с помощью глубокой нейронной сети, которая собирает мультимодальную контекстную информацию

Блог основан на: Контекстно-зависимый анализ настроений в пользовательских видео. Пория; Cambria; Хазарика; Маджумдер; Заде; Моренси (2017). Ссылка на полный документ технических исследований

Вступление

Представьте, что вы смотрите на YouTube видео с реакцией на премьеру нового телешоу. По какой-то причине лицо, придерживающееся мнения, выражает в разные моменты в течение 5 минут возбуждение, затем печаль… они громко кричат, затем монотонны… они сначала удивляются, затем испытывают отвращение. Что позволяет нам легко интерпретировать их эмоциональные выражения? Дело только в словах, которые они выбирают? Их черты лица? Их вокальная интенсивность? Скорее всего, это больше, чем просто звук, просто изображение на экране или просто значение выбранных слов. Речь идет о сочетании всех трех и о том, как каждый из них взаимодействует согласованно с течением времени.

Предыдущие исследования мультимодального анализа настроений в видео на уровне «высказываний» игнорировали естественные взаимозависимости последовательных человеческих высказываний (случаев речи, связанной паузами) в видео и вместо этого рассматривали каждое выражение как полностью независимое от тех, которые были непосредственно перед и после него. Последовательные высказывания в видео на самом деле довольно контекстно коррелированы, и, следовательно, сама последовательность должна влиять на эмоциональную классификацию ближайших соседей во времени. Например, во фразе «Как лучше назвать фильм» говорящий пытается прокомментировать качество фильма, давая подходящее имя. Однако выраженное мнение требует контекста поведения говорящего и его / ее мнения о фильме. Предыдущий уровень техники не позволяет правильно классифицировать такие высказывания.

Исследователи из США, Сингапура, Индии и Мексики собрались вместе в 2017 году, чтобы построить модель классификации долгосрочной краткосрочной памяти (LSTM), которая включает окружающую контекстную информацию, захваченную в слуховых, визуальных и текстовых данных каждого видео в определенный момент времени. -моментная основа, повышающая точность модели на 5–10% по сравнению с предыдущей современной моделью.

Голосовые интонации и выражения лица в визуальных данных, наряду с языком, представленным в текстовой расшифровке, предоставляют важные подсказки для более точного определения эмоциональных состояний лиц, придерживающихся мнения, создавая более надежную модель распознавания эмоций. Хотя основная цель эксперимента, который я обобщу ниже, заключалась в классификации настроений в видео (положительных, нейтральных или отрицательных), их результаты могут быть включены в более конкретную задачу классификации эмоций по более широкому спектру основных эмоциональных категорий (гнев, счастье, печаль, нейтральный, волнение, разочарование, страх, удивление и др.). Примеры бизнес-приложений включают разработку виртуальных помощников, анализ YouTube и других цифровых или социальных видеороликов (например, обзоры продуктов, рекламные кампании), анализ новостных видеороликов, индивидуальный мониторинг эмоций для специалистов в области психического здоровья и, конечно же, многие другие.

Методология

Наборы данных

Для тестирования модели, которую еще предстоит описать, были использованы три набора данных с разными атрибутами и предупреждениями. MOSI содержит 93 человека, просматривающих темы на английском языке, и богат сентиментальными выражениями. Каждый сегмент оценивается несколькими судьями от -3 до +3 (от отрицательного к положительному). Для эксперимента берется среднее значение, дающее двоичное значение либо выше 0 (положительное настроение), либо ниже 0 (отрицательное). MOUD содержит видео-обзоры продуктов от 55 человек на испанском языке (переведенные с помощью Google Translate), с высказываниями, помеченными как положительные, отрицательные или нейтральные. После удаления нейтральных видеороликов было использовано 59 видеороликов.

На мой взгляд, наиболее интересный набор данных - это данные IEMOCAP. Этот набор содержит 10 англоговорящих людей, говорящих по-английски, в двухстороннем разговоре с высказываниями, помеченными эмоциями: гнев, счастье, грусть, нейтральный, волнение, разочарование, страх, удивление и т. Д. (В конечном итоге исследователи использовали только первые четыре для сравнения с предыдущими. современное исследование).

Контекстно-независимое извлечение признаков на уровне высказываний

Первоначально исследователи не учитывают контекстную зависимость между высказываниями при первом извлечении признаков.

Текст: создание входных данных модели из текстовой расшифровки произнесенных слов видео с помощью CNN

Используя сверточную нейронную сеть (CNN), исследователи сначала представляют каждое высказывание как конкатенацию векторов используемых слов, где векторы являются общедоступными 300-мерными векторами word2vec, обученными на 100 миллиардах слов из Google News. Проще говоря, чтобы извлечь тональность каждого слова, каждого высказывания и, в конечном итоге, каждого видео, CNN преобразует текстовое высказывание в логическую форму: машинно-понятное представление его значения.

Аудио: извлечение звуковых описательных функций с помощью openSMILE

Аудио функции извлекаются с частотой кадров 30 Гц и скользящим окном 100 мс с использованием openSMILE, программного обеспечения с открытым исходным кодом, которое автоматически извлекает звуковые дескрипторы, такие как высота тона и интенсивность голоса. Интенсивность голоса определяется порогом для определения образцов с осмысленной речью и без нее.

Визуальный: извлечение объектов на основе изображений с помощью 3D-CNN

Исходя из гипотезы о том, что 3D-CNN не только сможет изучать соответствующие функции из каждого кадра, но также будет изучать изменения среди заданного количества последовательных кадров, команда выбрала это для извлечения функций видео для каждого высказывания. С помощью сверточного 3D-фильтра, максимального объединения, плотного слоя и softmax извлекаются соответствующие функции.

Контекстно-зависимое извлечение признаков: значение времени и последовательности

Поскольку высказывания в видео поддерживают последовательность и учитывая гипотезу зависимости между высказываниями в отношении распознавания сентиментальных намеков, исследователи использовали схему рекуррентной нейронной сети (RNN) на основе LSTM для классификации высказываний. Чем это отличается от традиционных нейронных сетей с прямой связью? Что ж, обученная сеть прямой связи может быть подвергнута воздействию любой случайной коллекции фотографий, и первая фотография, которой она подвергается, не обязательно повлияет на то, как она классифицирует вторую. Нет понятия времени, поскольку эти сети помнят только свои тренировки, но не свое недавнее прошлое. Однако RNN принимают в качестве входных данных не только текущий вход, который они получают, но также и то, что они воспринимали ранее во времени. Недавнее прошлое имеет значение, и RNN действуют ближе к тому, как мы на самом деле воспринимаем эмоциональный контекст того, что мы видим и слышим.

Чтобы упростить: в приведенной ниже анимации каждый x (красный) является примером ввода, w (синий) подготавливает ввод, определяя, насколько важны оба текущих ввода. и прошлое скрытое состояние, a (зеленый) - это активация скрытого слоя (комбинация отфильтрованного ввода и ввода, подобного «памяти»), и b (оранжевый) - это вывод в каждый момент времени, чья «память» информация передается вперед в RNN в момент времени +1.

Блоки долгосрочной краткосрочной памяти (LSTM): разновидность искусственных рекуррентных нейронных сетей

Как люди, мы не можем и не должны помнить всего. Наше недавнее прошлое более яркое, и в целом наше далекое прошлое имеет тенденцию немного меньше влиять на наши текущие решения. Чтобы быть лучшими, мы принимаем сознательные или бессознательные решения о том, что сохранить в памяти, что забыть, чему научиться и к чему обратиться в данный момент, чтобы принять решение. Эта метафора может быть не идеальной, но LSTM похожи в том, что они принимают такие решения через ворота, которые открываются и закрываются. Эти закрытые ячейки узнают, когда разрешать ввод, выход или удаление данных, посредством итеративного процесса угадывания, ошибки обратного распространения и корректировки весов с помощью градиентного спуска. LSTM обеспечивает своего рода избирательную память. Это позволяет повторяющимся сетям продолжать обучение в течение многих дополнительных временных шагов, с гибкостью, позволяющей забыть, когда это имеет смысл (например, сканирование текстовой информации в новом документе, когда предыдущий документ следует считать совершенно не связанным). Эти особенности делают его предпочтительной моделью для классификации настроений и эмоций по множеству последовательных слов, множеству последовательных высказываний и множеству уникальных видео с течением времени.

Резюме обучения по архитектуре и модели «Contextual-LSTM»

В надежде избежать излишней технической подготовки входными данными для контекстной модели LSTM является матрица, построенная из вектора для каждого высказывания каждого видео для всех трех унимодальных функций. Каждый вектор высказывания проходит через ячейку LSTM. Затем выходные данные ячейки LSTM вводятся в выпадение, метод регуляризации, чтобы уменьшить переоснащение и улучшить обобщение модели путем временного отбрасывания случайно выбранных сетевых узлов. Затем выходные данные передаются в плотный слой, чтобы подготовить контекстно-зависимые функции для активации softmax. Наконец, выходные данные передаются на слой активации softmax, который сжимает вектор между 0 и 1, где все результирующие элементы в сумме дают 1, что дает вероятности классов, которые будут определять классификацию.

Обучение сети LSTM выполняется с использованием категориальных кросс-энтропийных потерь на выходе softmax каждого высказывания на видео. Поскольку в видеороликах используется разное количество высказываний, отступ используется в качестве нейтральных высказываний. Чтобы избежать излишнего шума в сети, для этих дополненных высказываний выполняется битовая маскировка, чтобы исключить их влияние в сети. Настройка гиперпараметров выполняется на обучающей выборке после разделения на обучение / тест 80% / 20%. RMSprop использовался в качестве оптимизатора, который, как известно, решает проблему радикально падающей скорости обучения Adagrad, используя скользящее среднее вместо того, чтобы постоянно накапливать оценку квадратов градиентов.

В отличие от однонаправленных ячеек LSTM, визуализированных на изображении выше, лучший классификатор в отчете оказался двунаправленной архитектурой. Двунаправленные LSTM - это два однонаправленных LSTM, уложенных вместе и имеющих противоположные направления. Это означает, что высказывание может получать информацию из высказываний, происходящих до и после себя в видео, что кажется ближе к тому, как мы на самом деле воспринимаем выразительный контекст.

Резюме слияния модальностей

Исследователи предложили иерархическую глубокую сеть, состоящую из двух уровней, чтобы приблизиться к объединению трех модальностей - текстовой, визуальной и слуховой. На уровне 1 контекстные независимые функции передаются в предложенную сеть LSTM, описанную выше, для получения контекстно-чувствительных одномодальных представлений функций для каждого высказывания. Для каждой из трех модальностей используются отдельные сети LSTM. На уровне 2 выходные данные каждой сети LSTM на уровне 1 объединяются и передаются в эту новую сеть LSTM, которая обучается и вычисляется независимо.

Результаты и анализ

Контекст улучшает классификацию

Вариант двунаправленной сети LSTM и многие другие варианты, протестированные исследователями, но не упомянутые здесь, значительно превосходят базовый uni-SVM по всем наборам данных на 2-5%, подтверждая первоначальную гипотезу исследователей о том, что моделирование контекстных зависимостей между высказываниями (чего не может сделать uni-SVM) улучшает классификацию. Необходимость учитывать контекстную зависимость важна при классификации тональности высказывания.

Мультимодальные модели превосходят одномодальные

Как и ожидалось, бимодальные и тримодальные модели превосходят одномодальные модели в этом случае и во многих других типах экспериментов. В целом аудио показал лучшие результаты, чем визуальный , для всех наборов данных. В наборах данных MOSI и IEMOCAP текстовый классификатор обеспечивает наилучшую производительность. У всех классификаторов были проблемы с классификацией нейтральных высказываний в наборе данных IEMOCAP. Текстовая модальность в сочетании с нетекстовыми режимами значительно повышает производительность IEMOCAP, которая в этом случае намного больше, чем в других наборах данных.

По данным MOUD, текст работал хуже, чем аудио, вероятно, из-за перевода с испанского на английский. Сохранение исходного языка повышает производительность на 10% (испанский), но жертвует сопоставимостью перед современным языком (английский). При оценке возможности обобщения исследователи обнаружили, что в кросс-языковых сценариях выражения лица несут более надежную информацию, чем аудио и текстовые формы (путем тестирования модели с подачей MODI на данных MOUD ). Других наборов данных с несколькими эмоциями на уровне высказываний, на которых можно было бы проверить возможность обобщения модели IEMOCAP, не существовало.

Значимые контекстные связи были обнаружены во всех наборах данных. Чтобы проиллюстрировать взаимозависимость модальностей, высказывание «тот, у кого вообще нет никакого присутствия или величия» было классифицировано аудио классификатором как положительное, потому что «присутствие и величие в все »говорилось с энтузиазмом. Однако текстовая модальность уловила отрицание, вызванное «не делает», и подтолкнула классификатор в правильном направлении. В другом примере текстовый классификатор классифицировал высказывание «, которому нравится видеть, что к персонажам комиксов относятся ответственно» как положительное просто из-за того, что они увидели «нравится видеть» и «ответственно». Явный гнев в голосе и яркое хмурое выражение помогли определить это как негативное. Есть много примеров того, как сила одной модальности преобладает над догадками модели, собранными из ситуативно более слабой модальности, а также есть примеры того, как окружающий контекст неправильно подавляет слабое или нейтральное сиюминутное настроение.

В целом, модель не идеальна, но это определенно шаг вперед и добавляет к совокупным свидетельствам того, что мы живем в чрезвычайно захватывающее время для искусственного интеллекта, ориентированного на эмоции!

Спасибо за чтение,

Алекс

Ссылка на Полный технический документ

Давайте подключимся! Я призываю вас ставить лайки, комментировать, делиться или напрямую писать мне свои мысли об идеях, представленных здесь, или предложения по интересным темам, которыми я должен заняться в будущем.

Www.linkedin.com/in/alexandershropshire

Medium.com/@as6140

Github.com/as6140