Если кто-то показал вам изображение человека и попросил вас подумать о том, что он чувствует, странно, что у вас есть совершенно разумная мысль о внедрении приложений на основе машинного обучения для обнаружения эмоций.

Представьте обстоятельства, в которых он мог бы быть намного лучше и превосходить вас. Сложно понять, как приложения на основе машинного обучения обнаруживают эмоции. Машинное обучение в мобильных приложениях — лучшее решение для обнаружения различных типов эмоций.

Прилагаемый онлайн-журнал содержит воспоминания обо всем, что мы делали во время работы с ИИ.

В то же время, Приложения на основе машинного обучения обнаруживают эмоции показывает много кода, необходимого для обнаружения эмоций; это никоим образом не формирует и не формирует самый быстрый метод подготовки модели. Многие модели машинного обучения и искусственного интеллекта использовались, чтобы увидеть разницу между ними.

1. Обзор решения для приложений на основе ML Detect Emotions

В частности, в дискурсе выделяют три класса основных моментов: лексические основные моменты, визуальные основные моменты и акустические основные моменты.

Проблема признания чувства дискурса может быть понята, если разрушить по крайней мере одну из этих особенностей.

Решение следовать лексическим выделениям потребовало бы записи дискурса, что дополнительно потребовало бы дополнительного продвижения извлечения текста из обсуждения на тот случай, если нужно предугадать чувства от постоянного звука.

Кроме того, часто возникает вопрос: как приложения на основе машинного обучения обнаруживают эмоции? Чтобы продолжить разбор визуальных моментов, потребуется множество видео дискуссий, которые, вероятно, не будут подходящими для каждой ситуации.

Напротив, исследование акустических бликов должно быть возможным непрерывно, пока идут дебаты, поскольку нам нужна достоверная информация для достижения нашей цели.

Таким образом, мы решили разбить акустические моменты в этой работе. При этом изображение чувств должно быть возможно двумя разными способами:

  • Дискретная классификация: классификация чувств по отдельным именам, таким как неудовольствие, радость, усталость и т. д.
  • Пространственное представление: Представление чувств с измерениями, например, Валентность, Активация энергии в масштабе от низкого до крупного и Доминирование.

Обе эти методологии имеют свои преимущества и недостатки в реализации машинного обучения для обнаружения эмоций. Многомерный метод постепенно детализируется и дает больше возможностей для прогнозирования, но при этом более серьезно актуализирует и объясняет отсутствие достоверной информации в многомерной организации.

2. Предыстория для приложений на основе машинного обучения, обнаруживающих эмоции

Если кто-то продемонстрировал изображение человека и попросил вас подумать о том, что он чувствует, скорее всего, у вас есть совершенно разумная мысль об этом.

Подумайте о том, что ваш компьютер может сделать то же самое. Подумайте о надежде, что она может оказаться намного лучше вас. Кажется абсурдной идеей, не так ли?

Сопутствующий веб-сайт содержит в себе память о полном решении вещей и Распознавании эмоций с помощью мобильных приложений, которые мы сделали во время задачи с InspiritAI. В то же время он показывает массу кода, необходимого для выполнения Emotion.

Прочтите это: Лучшие способы проверки идеи вашего мобильного приложения

Обнаружение, это никоим образом не формирует или формирует самый быстрый метод подготовки модели. Были использованы различные модели машинного обучения и искусственного интеллекта, чтобы увидеть различие между дискурсом отдельных людей и одним из наиболее распространенных подходов к общению.

Мы настолько зависим от него, что воспринимаем его значение, когда обращаемся к другим структурам корреспонденции, таким как сообщения и мгновенные сообщения, где ML в мобильных приложениях часто использует смайлики для передачи чувств, связанных со словами.

Мы характеризуем структуру SER как набор процедур, которые обрабатывают и группируют дискурсивные знаки для идентификации заложенных в них чувств. Такая структура может быть обнаружена с помощью ML в мобильных приложениях с использованием широкого спектра зон использования, таких как интуитивно понятное голосовое исследование собеседника или разговора с гостевым оператором.

3. Особенности, использованные в этом исследовании

Из звуковой информации мы выделили три основных момента, которые использовались в этом исследовании, а именно: MFCC (частотные кепстральные коэффициенты Mel), спектрограмму Mel и цветность. При их извлечении использовалось выполнение пакета Librosa на Python.

Проблема признания чувства дискурса может быть решена путем исследования хотя бы одного из этих основных моментов. Решение следовать лексическим выделениям потребовало бы записи дискурса, что дополнительно потребовало бы дополнительного продвижения извлечения текста из диалога, чтобы нужно было предвосхищать чувства от постоянного звука.

Выбор функций для приложения машинного обучения помогает в обнаружении эмоций

MFCC, безусловно, был наиболее изученным и часто используемым в исследовательских работах и ​​проектах с открытым исходным кодом.

Спектрограмма Мел интригует способность повторения по сравнению с временной диаграммой по шкале «Мел». Поскольку речь идет об ощущении признания, а это абстрактная вещь, мы подумали, что было бы разумнее построить график адекватности по шкале Мела, поскольку шкала Мела изменяет записанное повторение на «повторение пилы».

Аналитики также использовали Chroma в своей работе, согласно написанному, в том же духе мы также пробовали основные дисплеи только с MFCC и Mel и со всеми MFCC, Mel, Chroma.

Компания по разработке мобильных приложений помогла модели со всеми функциями, дающими немного лучшие результаты; следовательно, мы решили сохранить каждый из трех элементов, поскольку приложение машинного обучения помогает в обнаружении эмоций.

4. Предварительная обработка для приложений на основе машинного обучения, обнаруживающих эмоции

Поскольку средняя доходность удаленных бликов была двумерной по структуре, мы решили принять двунаправленную стратегию, использующую как одномерные данные, так и двумерный вклад, как показано ниже.

Формат данных 1D Эти основные моменты, полученные в результате извлечения звуковых застежек, представлены в виде сетки. Чтобы отобразить их в обычных вычислениях ML, таких как SVM и XGBoost или 1-D CNN, мы рассмотрели возможность преобразования решеток в 1-D положение, взяв средние значения линий и предполагаемые сегменты.

Формат 2D-данных Основные моменты 2D использовались в модели глубокого обучения (CNN). Y-концентратор полученных компонентных сетей зависит от границы n_mfcc или n_mels, которую мы выбираем при разделении информации. X-hub зависит от длины звука и скорости проверки.

Чтобы проверить эту проблему, мы решили использовать различные скорости проверки при извлечении в соответствии с их длиной звука.

В нашей методологии любая звуковая запись, более заслуживающая внимания или эквивалентная 5 секундам, была сокращена до 5 секунд и протестирована на частоте 16000 Гц. Более короткие кламмеры были осмотрены до такой степени, что звуковой диапазон разницы в частоте осмотра остается равным 80000.

Благодаря этому у нас есть возможность поддерживать компоненты сети для всех звуковых застежек без потери значительной части данных.

Прочтите это: Стоит ли инвестировать в разработку мобильных приложений в 2020 году?

5. Исследовательский анализ данных

Сводный индекс данных из первых пяти источников в целом разбился относительно сопутствующих мнений. Обнаружение настроения с помощью машинного обучения возможно в современном мире.

Циркуляция чувств Разнообразие жизненности чувств
Разнообразие относительного темпа и силы чувств
Мы проверили обращение имен, касающихся чувств. Мы обнаружили, что хотя информация корректируется для шести чувств, а именно. беспристрастный, радостный, несчастный, разъяренный, ужасный и тошнотворный, количество баллов было немного меньше для шока и не обязательно для истощения.

Энергия в эмоциях Чтобы гарантировать последовательность в нашем исследовании разнообразия жизненных сил, поскольку звуковые зажимы в нашем наборе данных были разной длины, сила, которая представляет собой жизненную силу в единицу времени, рассматривалась как все более точная мера.

Это измерение было построено относительно различных чувств. Очевидно, что основной стратегией объединения унижения или страха в людях является передача более высокой жизненной силы.

Мы также наблюдаем, что отвращение и печаль ближе к нейтральному в отношении энергии, хотя существуют исключения.

Изменение относительного темпа и мощности в зависимости от эмоций. Был изучен диссипированный график интенсивности в зависимости от относительного темпа звуковых зажимов, и было замечено, что чувство «ужаса» было смещено в сторону низкого темпа, в то время как ощущение «шока» было смещено в сторону низкого темпа. наклонен больше в сторону более высокого темпа.

Как упоминалось ранее, возмущение и страх поглощают большое пространство и жалость, а беспристрастность поглощает пространство с низкой силой, рассеиваясь по темпу.

6. Отображение

Конвейер решения Конвейер решения для этого исследования изображен в схематической форме, как показано на рисунке ниже.

С самого начала 2D-объекты были отделены от наборов данных и заменены на 1-D структуру, принимая во внимание линии. Доля шума была добавлена ​​к грубому звуку для 4 наших наборов данных.

Поскольку часть моделей переоснащала информацию и учитывала многие особенности, мы попытались уменьшить размерность, чтобы проверить соответствие, и еще раз подготовили модели.

Сравнение результатов модели Результат зависит от измерений точности, когда проводится проверка между ожидаемыми и реальными качествами.

Создается беспорядочная решетка, которая включает в себя истинно положительные (TP), действительные отрицательные (TN), фиктивные положительные (FP) и отрицательные (FN). Из измерений беспорядка мы определили точность следующим образом:

С другой стороны, внедрение машинного обучения для обнаружения эмоций дает CNN-1D Shallow на картинке, которая дала гораздо лучшие результаты, поскольку ее поезд, одобрение и правильность теста были ближе друг к другу. Однако точность его испытаний была немного ниже, чем у CNN-1D.

Подход к сокращению дальности

Чтобы устранить переоснащение моделей, мы использовали подход уменьшения размерности. Метод PCA был использован для уменьшения размерности в одномерных бликах, а измерения были уменьшены со 180 до 120 с изменением осветления на 98,3%.

Уменьшение размерности сделало модель несколько менее точной, но уменьшило время подготовки. В любом случае, это не сильно помогло уменьшить переобучение в модели глубокого обучения.

Прочтите это: Как мы оптимизируем мобильные приложения для увеличения времени автономной работы?

Из этого можно сделать вывод об обнаружении настроения с помощью машинного обучения для набора данных, который недостаточно велик для того, чтобы запутанная модель работала хорошо, и понимает, что расположение ограничено отсутствием более значительного объема информации.

Выводы из тестирования пользовательских записей Мы опробовали созданные модели на учетных записях клиентов, по результатам тестирования у нас есть сопутствующие ощущения.

Сбор CNN-2D и CNN-1D в свете деликатной демократии дал наилучшие результаты по клиентским счетам.

Модель часто терялась среди возмущения и аплодисментов.

Внедрение машинного обучения для обнаружения эмоций также запуталось в чувствах низкой жизненной силы, таких как горечь, усталость и беспристрастность.

Если пара слов выражена вербально громче, чем другие слова, особенно в начале или в конце предложения, это довольно часто вызывает страх или шок.

Модель лишь время от времени характеризует чувство как радостное.

Модель не слишком шумная, а значит, она не барахтается, пока волнение основания не слишком велико.

7. Выводы и планы на будущее

Благодаря этому начинанию мы продемонстрировали, как мы можем использовать машины, чтобы понять, как получить основное чувство от дискурса, звуковой информации и некоторых знаний о человеческом выражении чувств через голос.

Эта структура может использоваться в различных мероприятиях, таких как колл-центр для жалоб или рекламы, в голосовых помощниках или чат-ботах, в этимологических исследованиях и т. д.

Несколько потенциальных улучшений, которые делают модели более мощными и точными, являются сопутствующими.

Точное выполнение темпа речи можно исследовать, чтобы проверить, может ли оно устранить часть несоответствий модели.

Вы понимаете подход к кажущейся произвольной тишине от звуковой застежки.

Они исследуют другие звуковые признаки с помощью звуковой информации, чтобы проверить их актуальность в области признания дискурсивного чувства. Эти основные моменты могут быть некоторыми предлагаемыми расширениями MFCC, такими как RAS-MFCC, или они могут быть совершенно другими основными моментами, такими как LPCC, PLP или гармонический кепстр.

8. Предварительная подготовка данных

Прежде чем использовать данные, очень важно выполнить ряд шагов, называемых предварительной обработкой. Это упрощает работу с информацией.

Мы будем использовать измененный вариант набора данных fer2013, состоящий из пяти имен чувств.

Набор данных помещается в документ CSV. Каждый столбец в записи CSV указывает событие. Каждый пример имеет два качества сегмента:

  • Пиксели изображения помещаются в позицию строки
  • Целочисленное кодирование метки объектива

Таким образом, мы пришли к выводу, что сочетание машинного обучения и интеллекта в повседневной жизни уверенно продвигается вперед к созданию приложений на основе машинного обучения для обнаружения эмоций. Действительно, уровень, на котором ИИ и машинное обучение проявляются через мобильные приложения, высок, и для получения подробной информации вы можете связаться с нами для разработки любого такого приложения.

Мегхави Вьяс

Мегхави Вьяс — автор контента и маркетолог, работающий в 7th Dev. Пишет о технологиях в течение 5 лет, она сначала читатель, заядлый исследователь и технический гик, который использует свои навыки и опыт для хорошо разбирающегося контента. Вы часто найдете ее статьи, блоги и материалы, основанные на знаниях, по AI/ML, Data Science и Разработке приложений.