Перевод на жестовый язык в реальном времени

Более 5% населения мира страдает потерей слуха.

Эта проблема

Значительная часть населения с нарушениями слуха использует язык жестов в качестве средства общения и не может этого удовлетворительно делать, когда дело доходит до онлайн-видеосвязи из-за отсутствия инвестиций в технологии.

С растущим распространением видеосвязи и ее применения, такого как телездравоохранение, люди с нарушением слуха должны иметь средства для правильного и естественного общения со своей сетью здравоохранения, независимо от того, знает ли практикующий язык жестов или нет.

Также..

Универсального языка жестов не существует, и его достижение практически невозможно из-за его невероятно динамичной природы, а также того факта, что в мире существует более 200 диалектов языка жестов. Популярным жестовым языкам повезло, что они привлекли внимание некоторых проектов и вложили в них достаточно технологических инвестиций, чтобы принести результаты.

Однако большинство не столь популярных жестовых языков остались без внимания, и им не повезло. В таких сообществах практически не ведется никакой работы. Я думал, что смогу помочь.

Решение

Моя цель была возвышенной - разработать веб-приложение, которое переводит язык жестов в реальном времени с помощью веб-камеры, фиксируя подписи объекта. Вышеупомянутая цель потребует:

Создание и сбор данных.
Обучение модели (машинное обучение) распознаванию жестового языка.
Разработка пользовательского интерфейса.

Создание набора данных изображения

Машинное обучение является частью ИИ (искусственного интеллекта), который представляет собой процедуру обучения систем тому, как учиться. В общем, мы делаем это, предоставляя компьютерам множество экземпляров «помеченных» данных - например, вот изображение, а это собака - и обучаем компьютер обнаруживать сходства относительно объектов с похожей меткой; процедура под названием «контролируемое обучение».

Чтобы обучить модель машинного обучения распознавать субъект, подписывающий алфавиты языка жестов, нам потребовалось несколько разнообразных изображений людей, подписывающих алфавиты языка жестов, вместе с английской буквой, изображенной на каждом изображении. Модель также потребует изучения где подписывающих рук на каждой фотографии, и для этого нам потребуются ограничивающие рамки вокруг рук на фотографиях набора данных.

Наборы данных для популярных жестовых языков, таких как ASL, существуют, но не для менее популярных.

Используя различные общедоступные онлайн-видео (с YouTube, Skillshare и т. Д.) Людей, демонстрирующих язык жестов, мы извлекли каждый кадр из каждого видео, а затем вручную нарисовали ограничивающие рамки для локализации объекта, чтобы отметить букву, чтобы научить модель распознавать и предугадать, где находятся руки. Поскольку в машинном обучении всегда приветствуется разнообразный ввод, мы вручную сделали около 700 изображений (в настоящее время, на данный момент) с 3 разных объектов, а также в различных условиях освещения от низкого до среднего и яркого, чтобы повысить точность в реальном времени. время исполнения. Набор данных и изображения были обработаны до разрешения 640 x 480 пикселей, чтобы улучшить обработку модели, не оказывая отрицательного воздействия на данные таким образом, что это снижает точность в обмен на обработку модели.

Обучение модели

Чтобы классифицировать разнообразный набор алфавитов, мы обучили нашу нейронную сеть. Нейронная сеть - это последовательность вычислений, которые пытаются обнаружить скрытые связи в наборе данных с помощью процедуры, имитирующей работу головного мозга человека. В этом смысле нейронные системы ссылаются на каркас нейронов, естественный или искусственный по своей природе.

Поскольку сверточные нейронные сети оказались успешными при классификации изображений, мы применили то же самое для нашей задачи. Мы обучили сверточную нейронную сеть, используя Pytorch (фреймворк машинного обучения Python) для предсказания положения рук (каждой точки ограничивающей рамки), а также класса изображения (буквы). С последним толчком мы достигли модели, которая могла предсказывать буквы алфавита со знаком с точностью около 90%.

Финал

Нашей целью было интерпретировать язык жестов в реальном времени.

У проекта осталось 2 финальных компонента. Бэкэнд-сервис, который вернет предсказанное письмо, если ему будет предоставлено изображение знака; а также; интерфейс, который использовал веб-камеру объекта для захвата и отображения видео, одновременно приближаясь к серверной части для прогнозов.

Для бэкэнда модель была упакована в приложение Flask (Python). 4 точки ограничивающей рамки и буква (класс) изображения будут возвращены при использовании запроса POST с изображением в качестве полезной нагрузки. Теперь на стороне клиента JavaScript использовался для захвата веб-камеры пользователей с помощью метода getUserMedia в браузере. Невидимый холст использовался для захвата кадра из видео каждые 200 мс, затем запросил прогноз и показал результаты.

Пользовательский интерфейс

Поскольку потенциальными пользователями проекта являются люди с нарушениями речи, слуха и зрения, пользовательский интерфейс проекта оставался простым, чтобы он был одновременно привлекательным и практичным для конечного пользователя. Чтобы пользовательский опыт оставался как можно более оптимальным, графический интерфейс и пользовательский интерфейс имеют простую цветовую схему, а также преобразование текста в речь, чтобы улучшить взаимодействие с пользователем с ослабленным зрением. Веб-приложение также будет легко интегрировано с видеочатом, чтобы сохранить лёгкость доступа и простоту. Весь графический интерфейс будет направлен на упрощение работы конечного пользователя. Взаимодействие с веб-приложением будет доступно для всех возрастных групп.

Где сейчас?

Мы согласны с тем, что благодаря большему набору данных и еще большей настройке наших моделей мы сможем создать точные и надежные инновации для подписи. Очевидно, что общение посредством подписания включает в себя нечто иное, чем просто руки и письма; он объединяет образы лиц и последовательности жестов для формирования полных предложений. Хотя решение проблемы перевода на язык жестов пока еще не решено, этот проект демонстрирует очень незначительный толчок к улучшению образа жизни людей с нарушениями слуха.

Перевод на жестовый язык в реальном времени