Распознавание речи: как это работает?

«Привет, Siri, какая сегодня погода?»

Я думаю, что в 2021 году можно с уверенностью предположить, что каждый взаимодействовал с каким-либо устройством с помощью распознавания речи / голоса. Речевые технологии, хотя и не совершенны, стали нормой в нашем развивающемся технологическом мире. Как заядлые пользователи многих программ распознавания речи, таких как Siri, Alexa, Cortana и Google Translate, мы часто воспринимаем сложности этих программ как должное и просто ожидаем, что они будут работать. Но задумывались ли вы, как машины на самом деле понимают человеческую речь или, по крайней мере, что входит в этот процесс?

В этой статье я рассмотрю общее представление о том, как работает распознавание речи. Я также кратко представлю некоторые концепции, изучаемые в компьютерной лингвистике, а также концепции, относящиеся более конкретно к обработке естественных языков (NLP).

Волны в двоичные

Каждый звук, который вы слышите, - это эффект колебаний частиц в воздухе. Звуки, которые мы слышим, когда кто-то говорит, ничем не отличаются. Разговорный язык - это прямое воздействие звуковых волн (вибраций частиц), которые мы производим, заставляя и ограничивая воздух через различные формы, создаваемые нашими ртами, языками и глотками.

Устройства, использующие распознавание речи, могут улавливать звуки, которые мы создаем, а также звуки, которые нас окружают, но мы коснемся этого позже. Эти устройства улавливают звуковые волны / частоты и преобразуют их из аналоговых звуков в цифровые. Аналоговые звуки представляют собой частоты волн, а цифровые звуки представляют собой двоичный код, который приблизительно соответствует тому, что мы слышим.

После того, как звуки или произнесенные слова преобразованы в цифровые звуки, они могут быть дополнительно проанализированы, обычно с использованием облачной обработки с помощью нейронных сетей.

Фонемы

Каждый язык состоит из фонем, которые являются основными или наименьшими звуковыми единицами, из которых состоит язык. Каждая фонема имеет уникальную частоту, которую можно отобразить и визуально наблюдать на спектрограмме.

Нейронные сети, а также другие алгоритмы, такие как Скрытая марковская модель, отвечают за превращение цифровых звуков в распознаваемые фонемы. Это часто требует больших наборов данных из-за неоднородности человеческой речи. Системы нейронных сетей постоянно обучаются и приспосабливаются к вариациям человеческой речи, таким как акценты, высота звука и скорость.

После того, как система идентифицирует и анализирует фонемы, которые были созданы, когда кто-то произносит предложение, следующим шагом будет идентификация слов.

Обработка естественного языка

После того, как устройство с помощью нейронных сетей и других математических алгоритмов успешно определило фонемы, в игру вступает обработка естественного языка.

С использованием НЛП и языковых моделей фонемы объединяются для определения возможных слов. Языковые модели и статистический анализ позволяют устройству предсказать, какие слова имели в виду. Использование фонологии языка в сочетании со статистикой об общих парах слов и паттернах позволяет устройству создавать фактические варианты слов, а не не-слова из идентифицированных фонем.

После создания слов они сравниваются с существующими словами в словаре устройства. Если слово не существует, система часто выдает похожее слово, которое есть в предопределенном словаре.

Но как устройство понимает смысл предложений?

Синтаксический анализ

Теперь, когда устройство распознало слова, которые вы произнесли. Он должен выполнять синтаксический анализ, чтобы сформулировать предложения, а затем проанализировать значение.

Синтаксический анализ, также известный в компьютерном сообществе как тегирование слов и предложений, состоит из проверки того, имеет ли фраза смысл, путем анализа порядка слов, частей речи и правил грамматики. Для этого создаются деревья разбора или деревья синтаксиса.

Парсинг деревьев - это инструмент для систематического разбиения предложения на более мелкие фразы и, в конечном итоге, слова. Это помогает устройству проверить правильность предложения. Если предложение недействительно, система может вернуться назад и проверить произведенные фонемы, а затем повторно оценить, какие слова были образованы. Затем процесс повторяется до тех пор, пока не будет создано действительное предложение.

Этот процесс гарантирует, что система правильно понимает значения предложений, произносимых говорящим. Использование таких лингвистических концепций, как синтаксический анализ, позволяет устройству не ошибаться в омофонах и создавать грамматические предложения.

Текущие недостатки

Если вы еще не заметили, чем громче ваш фон, тем менее точно работает ваше устройство распознавания речи. Это лишь одна из многих проблем, которые инженеры пытаются решить в отношении распознавания речи.

Несмотря на то, как далеко продвинулись эти технологии, еще многое предстоит сделать. Некоторые из основных проблем в области речевых технологий включают фильтрацию окружающих шумов, точность / ложные интерпретации и недостаточную эффективность.

В отличие от людей, машины не могут автоматически различать звуки человеческой речи и фоновые шумы. Это часто приводит к тому, что устройство не может расшифровать то, что на самом деле было сказано.

Точно так же ясно, что эти устройства не всегда правильно интерпретируют то, что мы сказали. Частично это может быть связано с неправильным синтаксическим анализом фонем или даже неточным синтаксическим анализом. Лингвисты все еще пытаются понять человеческий язык, и остается много вопросов, на которые нет ответов. Таким образом, имеет смысл только то, что мы еще не разработали наиболее точные алгоритмы и инструменты для синтаксического анализа предложений.

Точно так же из-за большого разнообразия человеческой речи наши системы должны постоянно адаптироваться и учиться. Это часто замедляет процесс, и часто бывает быстрее использовать традиционные текстовые методы. Постоянно ведутся исследования того, как оптимизировать и без того быстрый процесс для повышения эффективности и взаимодействия с пользователем.

Заключение

Распознавание речи - очень сложная область, в которой задействована многопрофильная работа лингвистов, инженеров-программистов, инженеров данных и инженеров искусственного интеллекта. Несмотря на свою сложность, распознавание речи, как и другие речевые технологии, прошли такой долгий путь, что теперь стали нормой в нашем обществе.

Хотя эти технологии помогли нам во многих отношениях, все еще остается желать лучшего. Тем не менее, эта область постоянно растет, и сейчас, более чем когда-либо, появляются исследования компьютерной лингвистики, а также исследования ИИ. Ученые и инженеры продолжают исследования в этих областях и создают новые разработки.

Трудно сказать, в каком состоянии будут находиться эти технологии в будущем, но я считаю, что мы все должны быть в восторге от того, что нас ждет впереди!

Полезные ресурсы

Больше контента на plainenglish.io