Авторы Харман Бутани и Сукант Хурана

Распознавание эмоций лица - это приложение компьютерного зрения, которое можно использовать для обеспечения безопасности, развлечений, работы, образования и различных аспектов человеко-машинного интерфейса. Мы показываем простой метод автоматического распознавания и классификации эмоций с использованием генетического алгоритма и нейронных сетей, чтобы продемонстрировать, что любой компьютерный ученый может легко его реализовать. Демонстрационная система (код включен, проверьте ссылку на github) состоит из 3 шагов. На первом этапе к входному изображению применяется предварительная обработка, такая как регулировка контрастности, цветовая сегментация, фильтрация и обнаружение краев. На втором этапе объекты извлекаются методом профиля проекции. Наконец, на третьем этапе оптимизированные параметры глаз и губ вычисляются с помощью генетического алгоритма, а затем эмоции (нейтральные, счастливые, грустные, неприязнь, гнев, удивление и страх) классифицируются с помощью искусственной нейронной сети. Система была протестирована на изображении лица первого автора, Хармана, для иллюстрации пунктов. В реальном (контролируемом) инструменте, очевидно, необходимо создать более продвинутую систему для динамического отслеживания эмоций в реальном времени, которая учитывает положение тела и проверяется на различных этнических группах, возрастах и ​​полах. Тем не менее, с помощью настроек даже наш игрушечный алгоритм можно использовать для улучшения автоматической пометки и анализа на сайтах социальных сетей.

Выражение лица играет очень важную роль в человеческом общении, давая представление о наших эмоциях. Эмоции связаны с настроением, личностью и мотивацией. Система распознавания эмоций может использоваться для повышения производительности на мероприятиях (подумайте о политических митингах или развлекательных шоу, где выступающие получают обратную связь в режиме реального времени об эмоциях всех зрителей), улучшения работы и образования, а также более человечного взаимодействия с людьми. компьютеры. Эта технология в сочетании с огромной неожиданностью меняет наш мир работы, игр и развлечений и сделает это еще больше в ближайшие годы. Мы представляем простую или игрушечную систему распознавания эмоций, чтобы проиллюстрировать, как можно легко построить такие системы.

Недавно М. Картигаян предложил метод извлечения области глаза и губы по генетическому алгоритму. У этого подхода есть два важных требования:

1) Выявление мимики при неравномерном освещении.

2) Определение выражения лица по обработанным чертам лица. Мы просто использовали губы и глаза для выделения черт.

Предварительная обработка

При предварительной обработке входное изображение получается с цифровой камеры, затем используется выравнивание гистограммы для повышения качества изображения. После этого процесса система пытается найти непрерывную область, связанную с лицом. Если соотношение высоты и ширины самой большой соединенной области составляет от 1 до 2, то это может быть грань. Для определения границ лица изображение RBG преобразуется в двоичное изображение. Для этого преобразования вычислите среднее значение RGB для каждого пикселя, и, если среднее значение ниже предопределенного порога, замените его черным пикселем, а в противном случае замените его белым пикселем. Затем это двоичное изображение используется для отделения лба от лица на двоичном изображении. Шаги для этой изоляции - сканирование от средней точки изображения по горизонтали и вертикали. Затем найдите максимальную ширину белого пикселя как с левой, так и с правой стороны. Если новая ширина равна половине предыдущей максимальной ширины, мы достигаем области бровей. На этом этапе вырежьте лицо от начального положения лба, и его высота будет в 1,5 раза больше ширины .

Обнаружение границ области глаз и губ: -

Для определения границы области глаз рассмотрите ширину лица по W и начните сканирование от W / 4 до (W-W / 4), чтобы найти среднее положение двух глаз. Затем найдите верхнее и нижнее положение двух бровей. Для левого глаза сканирование от w / 8 до середины, а для правого глаза - от среднего до w - w / 8. Здесь w - ширина изображения, а mid - среднее положение двух глаз. Некоторые белые пиксели присутствуют между бровью и глазом, а некоторые черные пиксели - между бровью и глазом. Кроме того, отсканируйте черные пиксели по вертикали и горизонтали, чтобы определить нижнее и верхнее положение двух бровей. Чтобы определить границу области губ, сначала рассмотрите рамку для губ и вычислите расстояние между лбом и глазами. Затем определите нижнюю высоту глаз и верхнюю высоту коробки, которая будет содержать губу. Следовательно, в этой коробке будет губа и часть носа. Затем вырежьте изображение RGB в соответствии с рамкой. Наконец, датчик края Собеля применяется к глазам и изображению губ для обнаружения края. Собственный край обнаружил изображение губ и глаз, показанное на следующих рисунках:

(Нейтральная эмоция или, по крайней мере, нейтральная эмоция, заявленная Харманом)

(Собел Эдж обнаружил область глаз)

(Собел Эдж обнаружил область губ)

Обработка изображений и извлечение функций: -

Теперь к изображению с обнаруженными краями применяется метод извлечения признаков. Этот метод выделения признаков связан с суммой строк и столбцов белых пикселей изображения с обнаруженным краем. Для этого используется метод проекционного профиля из-за высокой скорости. В этом методе пусть f (m, n) представляет двоичное изображение с m строками и n столбцами. Этот проекционный профиль делится на 2 типа: горизонтальный и вертикальный профиль. Вертикальный профиль определяется как сумма белых пикселей каждого столбца, перпендикулярного оси X, которая представлена,

Горизонтальный профиль определяется как сумма белых пикселей каждой строки, перпендикулярной оси Y, которая представлена,

Человеческий глаз подобен эллипсу; он называется правильным эллипсом. Длина малой оси глаза варьируется для каждой эмоции, а длина большой оси глаза фиксирована. Большая и малая оси глаза определяются следующим уравнением:

Где, а - большая ось, б - малая ось

Губа человека представляет собой комбинацию двух эллипсов, которая называется неправильным эллипсом. Неправильный означает, что он имеет две второстепенные оси, при этом большая ось остается неизменной. Для каждой эмоции вычисляются длины малых осей и фиксируются большие оси. Эмоции полностью зависят от выражения лица, губы представлены как b1, b2, а выражение глаз - как b.

Распознавание эмоций с помощью генетического алгоритма:

Генетический алгоритм - это итеративный процесс, в котором каждая итерация называется генерацией. В каждом поколении рассчитывается приспособленность каждой особи и формируется новая популяция. Мы использовали алгоритм GA для расчета оптимизированного значения характеристик глаз и губ. Для этого используется длина хромосомы 7 бит и размер популяции 20. В нашем подходе сначала выберите пару области глаз и губ.

Процесс GA описывается в следующих этапах: -

  • Во-первых, представьте фиксированную длину хромосом и исходную популяцию с вероятностью кроссинговера и мутации.
  • Определите фитнес-функции отдельных хромосом.
  • Случайным образом сгенерируйте начальную популяцию хромосом.
  • Рассчитайте приспособленность каждой отдельной хромосомы
  • Выберите пару хромосом высокой пригодности для вязки из исходной популяции.
  • Применяя генетические операторы, такие как кроссовер и мутация - для создания пары потомков
  • Создана новая пара потомков, помещенных в новую популяцию.
  • Повторяйте с шага 5, пока размер начальной популяции не станет равным размеру новой популяции.
  • Заменить исходную популяцию новой популяцией
  • Перейдите к шагу 4 и повторяйте процесс до тех пор, пока критерии не будут удовлетворены.

Фитнес-функция:

Функция пригодности дает оптимальность решения, которое является типом целевой функции. Использование фитнес-функции для получения черт губ и глаз. Уравнение (3) выводится из функции пригодности. Уравнение (4) (5) - это функции пригодности для «b», «b2» для получения оптимизированного значения характеристик губ. Уравнение (6) представляет собой функцию пригодности для «b» для получения оптимизированного значения функции глаза.

Где col (j) - это сумма белых пикселей в j-м столбце, row (i) - это сумма белых пикселей в i-й строке. Таблица I. показывает вычисленное вручную среднее значение (b, b1, b2) и оптимизированное среднее значение GA (X, X1, X2).

Классификация эмоций с помощью нейронной сети: -

Искусственная нейронная сеть - это нелинейная сеть, которая работает как человеческий мозг. Эта сеть состоит из нейронов, которые работают параллельно и связываются друг с другом посредством взвешенного взаимодействия.

Для нашей цели использовались 3 входа, 20 нейронов и 7 выходов. В этой демонстрации используется нейронная сеть с прямой связью и обратным распространением. В BPN (сеть обратного распространения) входной слой получает данные о глазах, губах и передает их на следующий уровень, называемый скрытым слоем, который впоследствии вычисляет значения и передает их на выходной уровень, где система предоставляет другое выражение как выход. Наконец, классифицируются эмоции (счастье, грусть, гнев, страх, неприязнь, удивление, нейтральность).

Области глаз и губ используются для классификации эмоций, что означает, что наш игрушечный подход упускает нюансы и его легко обмануть. Вот почему это хорошая игрушка, и ее нужно доработать, чтобы она была готова к работе. Тем не менее, для полевых работ по применению ИИ в классах группа доктора Хурана планирует использовать несколько иной алгоритм. Возвращаясь к текущему алгоритму, функции глаз и губ были даны в качестве входных данных для генетического алгоритма для поиска оптимальных значений. Процесс оптимизации повторяется для каждой эмоции. Генетический алгоритм применяется для получения оптимизированных значений X1, X2, относящихся к губам, и значений X, относящихся к глазам. Параметры, вычисленные вручную, и оптимизированные параметры, рассчитанные с помощью генетического алгоритма, показаны в Таблице I. и Таблице II. Показывает нейросетевую классификацию эмоций.

Заключение

В этой демонстрации используется метод классификации и обнаружения эмоций (счастья, грусти, страха, злости, неприязни и удивления, нейтральности) на основе алгоритма генетической оптимизации и нейронной сети. Затем,% точности получается в модели NN структуры (3 * 20 * 7). Наконец, результат ИНС используется для оптимизации, и ИНС обеспечивает наилучшую точность классификации.

Вот ссылка на GitHub Harman для этого проекта. Надеюсь, это вдохновит вас заняться такими проектами выходного дня и превратить их в стартапы.



Ссылки

1. Zeng, Z. et al. 2004. Бимодальное распознавание аффектов, связанных с HCI. ICMI’04, 13–15 октября 2004 г., Государственный колледж, Пенсильвания, США.

2. Пантик М., Роткрац, «Чувствительное к влиянию мультимодальное взаимодействие человека и компьютера», IEEE, volume: 91 Выпуск: 9, сентябрь 2003 г., страницы: 1370–1390.

3. Мазе К. Распознавание мимики по оптическому потоку. IEICE Transc., E. 74 (10): 3474–3483, октябрь 1991 г.

4. Якуб, Ю., Дэвис, Л. Вычисление пространственно-временных репрезентаций человеческих лиц. Компьютерное зрение и распознавание образов, 1994. Труды CVPR ‘94., 1994 Конференция компьютерного общества IEEE, 21–23 июня 1994 г. PP: 70–75.

5. Блэк М. Дж. И Якуб Ю. Отслеживание и распознавание жестких и нежестких движений лица с использованием локальной параметрической модели движения изображения. В материалах Международной конференции по компьютерному зрению, страницы 374–381. Компьютерное общество IEEE, Кембридж, Массачусетс, 1995.

6. Тиан, Ин-ли, Канаде, Т. и Кон, «Распознавание функциональных единиц нижней части лица для анализа выражения лица», IEEE Transaction on Automatic Face and Gesture Recognition, март, 2000 г., стр. 484–490.

7. Хидеаки Тани, Кенджи Терада, «Обнаружение глаза по изображению лица с помощью генетического алгоритма», 27-я ежегодная конференция Общества промышленной электроники IEEE, 2001, стр. 1937–1940.

8. М. Картигаян, М. Ризон, С. Якоб и Нагараджан, «О применении характеристик губ в классификации человеческих эмоций», IEEE Transaction on vol.3, pp.1310–1314, 15–18 декабря 2007 г.

9. Чжихун Цзэн; Пантик, М .; Roisman, G.I .; Huang, T.S .; «Обзор методов воздействия: аудио, визуальное и спонтанное выражение», «Анализ паттернов и машинный интеллект», IEEE Transaction, том 31, № 1, стр. 39–58, январь 2009 г.

10. Рафаэль А. Кальво, Сидней Д’Мелло, «Обнаружение аффекта: междисциплинарный обзор моделей и методов, их применение», транзакция IEEE по влиянию вычислений, стр. 18–37, январь-июнь 2010 г.

11. М. Картигаян, М. Ризон, Р. Нагараджан, М. Пантик, Роткрац, «Генетический алгоритм и нейронная сеть для распознавания эмоций лица.

— —

О:

Харман Бутани - инженер по информатике, окончил инженерный колледж Гуру Нанак Дев, Лудхиана. Он работает с Accenture в качестве младшего инженера-программиста. Мы работали под наставничеством доктора Суканта Хурана.



«Https://www.linkedin.com/in/iamharman секс/



Д-р Сукант Хурана руководит академической исследовательской лабораторией и несколькими технологическими компаниями. Он также известный художник, автор и оратор. Вы можете узнать больше о Sukant на www.brainnart.com или www.dataisnotjustdata.com, а если вы хотите работать над проектами в области биомедицинских исследований, нейробиологии, устойчивого развития, искусственного интеллекта или науки о данных для общественного блага, вы можете связаться с его на [email protected] или связавшись с ним по linkedin https://www.linkedin.com/in/sukant-khurana-755a2343/.



Эта история опубликована в The Startup, крупнейшем предпринимательском издании Medium, за которым следят более 299 352 человек.

Подпишитесь, чтобы получать наши главные новости здесь.