Интеллектуальный перевод на язык жестов

Введение

Мы - NEST или иным образом разумно расширенная команда No Eat Sleep Team, и мы создали этот продукт, который мы хотели бы назвать… SignSpeak. Это была идея, родившаяся на хакатоне, и с тех пор мы развиваем ее, и в этой статье я планирую поделиться с вами нашим путешествием.

Что такое SignSpeak?

Эта идея была заложена в наших головах очень давно, но мы никогда не думали, что это возможно с логической точки зрения, учитывая технологии, к которым у нас был доступ. Это довольно просто во внешнем интерфейсе, но сложно во внутреннем, что я постараюсь максимально упростить для вас в этой статье.

SignSpeak - это интеллектуальная система перевода на язык жестов. По сути, мы хотели перевести язык жестов на простой английский, но вместо использования причудливых устройств и электроники мы хотели полагаться на простые (но не такие простые) концепции. компьютерного зрения, машинного обучения, нейронных сетей и встроенных камер для определения потока изображений в реальном времени для перевода.

Где мы видели использование SignSpeak?

Наша конечная цель была чрезмерно амбициозной: установить SignSpeak в большинстве государственных учреждений или школ с подключенными к нему только компьютером и камерой, которые переводили бы язык жестов в реальном времени для тех, кто этого не делал. понимать это. Оказывается, он чрезвычайно прост в установке и использовании и абсолютно не требует накладных расходов, а это два самых популярных слова, которые ищет правительство.

SignSpeak был разработан для использования где угодно. Для хакатона мы развернули его на Raspberry Pi, на нашей собственной веб-платформе и мы также создали приложение для Android, которое также будет использовать собранные нами данные.

Другой пример использования продукта: если немой человек встретит кого-то на улице и захочет с ним пообщаться, но этот человек не знает тонкостей языка жестов, он может просто хлестать Достаньте его телефон, откройте приложение, направьте камеру на него, и телефон просто зачитает вам текст. Это действительно так просто.

И все это возможно благодаря предварительно обученным данным. Для целей хакатона мы выбрали 8 слов, которые отличались друг от друга, начали снимать изображения этих знаков, которые мы вводили в действие, на веб-камеры наших ноутбуков, на наши телефоны, на нашу зеркалку. Все источники, которые мы смогли найти, и мы заполнили их данными всех наших друзей. Используя этот небольшой набор данных, мы смогли достичь точности ~ 84% с первой попытки.

Все это звучит интересно, но какая технология стоит за всем этим?

SignSpeak был построен полностью с использованием программного обеспечения с открытым исходным кодом и фреймворков, доступных в Интернете. Мы полностью построили серверную часть на Python, потому что это язык, который используется в исследованиях и науке о данных.

Мы использовали платформу нейронной сети с открытым исходным кодом под названием TensorFlow от Google, которая позволила нам создать сценарий классификации изображений с искусственным интеллектом за считанные минуты.

Мы построили сверточную нейронную сеть, которая содержит 48 скрытых слоев для передачи наших изображений вперед, чтобы классифицировать их по одному из восьми различных слов, которые были выбраны для классификации.

Наша следующая идея заключалась в использовании чего-то известного как Рекуррентная нейронная сеть, которая широко используется в большинстве наших цифровых помощников (таких как Siri, Google Assistant или Alexa). Благодаря этому мы могли бы связать весь разговор на языке жестов и переводить его в режиме реального времени. Мы не смогли реализовать это из-за нехватки данных, которые мы могли бы снимать за такое короткое время, но теоретически модель показала многообещающую.

На веб-сервере мы использовали HTML, CSS, Bootstrap и AngularJS, чтобы предоставить всей системе более чистый и дружелюбный интерфейс, чем просто экран нашего терминала.

И, конечно же, в области мобильных устройств мы использовали Android и NDK для поддержки разработки C ++ непосредственно на устройстве. Это позволило нам беспрепятственно использовать предварительно обученные данные на любом мобильном устройстве.

Итак, что отличает вас от существующих решений?

Мы не пытаемся сказать, что мы только что изобрели огонь или что мы заново изобрели колесо. Эта проблема незнания жестового языка возникает у всех нас с каждым поколением, и существует уже много лет. Для решения этой проблемы было предложено множество решений, некоторые из которых мы увидели прямо на нашем хакатоне.

Первое вдохновение для этой идеи, а также первый раз, когда мы увидели, как эта проблема решается публично, было здесь, в этом видео:

Для тех, кто не может смотреть видео, это изобретение из Lamelson MIT, где два студента создали перчатки, которые могут распознавать жесты рук и произносить вслух слова, которые они пытались подписать.

Теперь мы можем возразить, что этот хакерский хакер был чрезмерно укомплектован данными, чтобы обеспечить идеальную сигнатуру, но это хакатон, и это нормально. Но одна вещь, которую мы заметили из этого, и из всех других гениальных изобретений перчаток, которые мы видели на хакатоне, заключалась в том, что они могли сообщать вам информацию только о жестах рук, а не о маркерах лица.

Один простой пример - это то, что на американском языке жестов покачивание головой при подписании чего-либо указывает на отрицательное отношение к этому слову. Другой пример индийского языка жестов: когда вы указываете на свои усы, это может указывать на мужчину, но если вы указываете на свой нос, это указывает на женщину. Перчатки не могут передать это значение.

Здесь на помощь приходит SignSpeak, потому что мы не просто видим жесты рук, мы видим все. Сложные детали и особенности выражений вашего лица фиксируются камерой и сопоставляются с нашими данными обучения через ряд слоев нейронной сети.

Вывод

Думаю, я потратил достаточно времени, чтобы объяснить вам нашу действительно простую идею. Единственная причина, по которой мы хотели поделиться этой идеей со всем миром, заключалась в том, что инновации всегда могли быть в любой точке мира. Мы нашли небольшое решение, которое могло бы решить одну часть проблемы, и мы знаем, что оно не идеально, но именно поэтому мы хотим поделиться им со всем миром. Так что кто-то другой может наткнуться на это и построить гораздо лучшее решение.

NEST - это команда студентов инженерного колледжа Даянанды Сагар, в которую входят Амрут Пиллаи, Даршан Говда, Рохан Кумар Т.С., Абхишек Кори, Мегхана Н, Чандрамулы Кандачар и Локеш Пувараган .

Мы все внесли свой вклад в проект, чтобы он стал лучшей версией из возможных, и мы очень гордимся тем, что выиграли 3 место на Smart India Hackathon 2017 - Хайдарабад с этой идеей и единственной надеждой. что это еще не конец. В области компьютерного зрения и информатики еще многое можно сделать, чтобы помочь человечеству и человечеству. Давайте все поймем это, как только сможем.