Сейчас мы можем разговаривать практически со всеми интеллектуальными устройствами, но как это работает? Когда вы спрашиваете: «Что это за песня?», Какие технологии используются?

Как работает Alexa?

По словам Ади Агаше, менеджера программ в Microsoft, Alexa построена на основе обработки естественного языка (NLP), процедуры преобразования речи в слова, звуки и идеи.

  • Amazon записывает ваши слова. Действительно, для интерпретации звуков требуется много вычислительной мощности, запись вашей речи отправляется на серверы Amazon для более эффективного анализа.

Вычислительная мощность: означает скорость выполнения инструкций и обычно выражается в килофлопсах, мегафлопсах и т. д.

  • Amazon разбивает ваши «заказы» на отдельные звуки. Затем он просматривает базу данных, содержащую произношения различных слов, чтобы найти, какие слова наиболее точно соответствуют комбинации отдельных звуков.
  • Затем он определяет важные слова для понимания задач и выполняет соответствующие функции. Например, если Alexa заметит такие слова, как «спорт» или «баскетбол», она откроет спортивное приложение.
  • Серверы Amazon отправляют информацию обратно на ваше устройство, и Alexa может говорить. Если Alexa нужно что-то сказать в ответ, она будет выполнять тот же процесс, который описан выше, но в обратном порядке
    (источник)

Подробное объяснение

Согласно Trupti Behera, «все начинается с обработки сигнала, которая дает Alexa как можно больше шансов разобраться в звуке, очищая сигнал. Обработка сигналов - одна из самых важных задач в звуке в дальней зоне.

Идея состоит в том, чтобы улучшить целевой сигнал, что означает возможность идентифицировать окружающие шумы, такие как телевизионные, и минимизировать их. Для решения этих проблем используются семь микрофонов, которые примерно определяют, откуда исходит сигнал, чтобы устройство могло сфокусироваться на нем. Акустическое эхоподавление может вычесть этот сигнал, поэтому остается только оставшийся важный сигнал.

Следующая задача - «Обнаружение слова пробуждения». Он определяет, произносит ли пользователь одно из слов, которое запрограммировано на включение устройства, например «Alexa». Это необходимо для минимизации ложных срабатываний и ложноотрицательных результатов, которые могут привести к случайным покупкам и рассержению клиентов. Это действительно сложно, поскольку необходимо определить различия в произношении, и это необходимо сделать на устройстве с ограниченной мощностью процессора.

Если слово пробуждения обнаружено, сигнал затем отправляется в облачное программное обеспечение для распознавания речи, которое принимает звук и преобразует его в текстовый формат. Пространство вывода здесь огромно, поскольку оно рассматривает все слова на английском языке, а облако - единственная технология, способная к достаточному масштабированию. Это еще больше усложняется тем, что многие люди используют Echo для музыки - многие артисты используют для своих имен написания, отличные от слов.

Чтобы преобразовать звук в текст, Alexa проанализирует характеристики речи пользователя, такие как частота и высота звука, чтобы дать вам значения характеристик.

Декодер определит наиболее вероятную последовательность слов с учетом входных характеристик и модели, которая разделена на две части. Первая из этих частей - предварительная, которая дает вам наиболее вероятную последовательность, основанную на огромном количестве существующего текста, без учета функций, другая - акустическая модель, которая обучается с помощью глубокого обучения глядя на пары аудио и стенограммы. Они комбинируются, и применяется динамическое кодирование, которое должно происходить в реальном времени ». ("источник")

Анализ «заказа»

Вышеупомянутая команда состоит из 3 основных частей: слово пробуждения, имя вызова, высказывание. (эта часть взята из статьи Кирана Кришнана)

  • Слово для пробуждения
    Когда пользователи произносят «Alexa», устройство выводит из спящего режима. Слово пробуждения переводит Alexa в режим прослушивания и готов принимать инструкции от пользователей.
  • Имя вызова
    Имя вызова - это ключевое слово, используемое для активации определенного «навыка». Пользователи могут комбинировать имя вызова с действием, командой или вопросом. Для запуска у всех пользовательских навыков должно быть имя вызова.

«Навыки» Alexa: возможности Alexa с голосовым управлением.

  • Высказывание
    «Телец» - это высказывание. Высказывания - это фразы, которые пользователи будут использовать при отправке запроса в Alexa. Alexa определяет намерение пользователя по данному высказыванию и реагирует соответствующим образом. Таким образом, высказывание решает, что пользователь хочет, чтобы выполняла Alexa.

После этого устройства с поддержкой Alexa отправляют инструкции пользователю в облачную службу Alexa Voice Service (AVS).

Воспринимайте голосовую службу Alexa как мозг устройств с поддержкой Alexa и выполняйте все сложные операции, такие как автоматическое распознавание речи (ASR) и понимание естественного языка (NLU).

Alexa Voice Service обрабатывает ответ и определяет намерение пользователя, а затем отправляет запрос веб-службы на сторонний сервер, если это необходимо.

Что такое НЛП?

Это конвергенция искусственного интеллекта и вычислительной лингвистики, которая занимается взаимодействием между машинами и естественными языками людей, в которых компьютеры призваны анализировать, понимать, изменять или генерировать естественный язык.

НЛП помогает компьютерным машинам общаться с использованием естественного человеческого языка во многих формах, включая, помимо прочего, речь и письмо.

«Двадцать минут светской беседы с компьютером - это не просто лунная съемка, это путешествие на Марс».

В этой статье я нашел интересную часть, в которой говорится: Понимание человеческого языка считается сложной задачей из-за ее сложности. Например, существует бесконечное количество различных способов расположить слова в предложении. Кроме того, слова могут иметь несколько значений, и для правильной интерпретации предложений необходима контекстная информация .

Вначале система получает ввод на естественном языке.

Естественный язык: любой язык, который естественным образом развился у людей в результате использования и повторения без сознательного планирования или преднамеренности. Естественные языки могут принимать разные формы, например речь или жесты.

После этого он преобразует их в искусственный язык, например в распознавание речи. Здесь мы получаем данные в текстовой форме, которые NLU (Natural Language Understanding) обрабатывает для понимания смысла.

Хорошее правило - использовать термин NLU, если вы просто говорите о способности машины понимать то, что мы говорим. НЛУ на самом деле является подмножеством более широкого мира НЛП.

Скрытая марковская модель (пример NLU):

При распознавании голоса эта модель сравнивает каждую часть сигнала с тем, что идет до и с тем, что идет после, а также со словарем сигналов, чтобы выяснить, что говорится.

Форма волны: периодическая вибрация голосовых складок, приводящая к озвученной речи.

Скрытая марковская модель (HMM) - это модель, в которой вы наблюдаете последовательность выбросов, но не знаете последовательность состояний, через которые модель прошла для генерации выбросов. Анализ скрытых марковских моделей стремится восстановить последовательность состояний из наблюдаемых данных.

Для Тревора Джекинса, специалиста по маркетингу в NeoSpeech: Он пытается понять, что вы сказали, беря голосовые данные и разбивая их на небольшую выборку определенной продолжительности, обычно 10–20 мс. Эти наборы данных далее сравниваются с предварительно загруженной речью, чтобы декодировать то, что вы сказали в каждой части вашей речи. Цель здесь - найти фонему (наименьшую единицу речи). Затем машина просматривает серию таких фонем и статистически определяет наиболее вероятные слова и предложения для произнесения . ("Источник")

Затем NLU глубоко понимает каждое слово, пытаясь понять, является ли оно существительным или глаголом, какое время используется и т. Д. Этот процесс определяется как POS: тегирование части речи.

По словам Прамода Чандраяна, коммерческого директора EasyGov, системы НЛП также имеют лексикон (словарь) и набор грамматических правил, закодированных в системе. Современные алгоритмы НЛП используют статистическое машинное обучение, чтобы применить эти правила к естественному языку и определить наиболее вероятный смысл того, что вы сказали . ("источник")

Для компании под названием Lola.com: «Чтобы построить машины, понимающие естественный язык, необходимо выделить речь, используя комбинацию правил и статистического моделирования. Сущности должны быть извлечены, идентифицированы и разрешены, а семантическое значение должно быть получено в контексте и использоваться для идентификации намерений. Например, простая фраза, такая как: «Мне нужен рейс и отель в Париже с 5 по 10 декабря», должна быть проанализирована и структурирована:

need: flight {intent} / need: hotel {intent} / Paris {city} / DEC 5 {date} / DEC 10 {date} / sentiment: 0,5723 (нейтральный) »

("источник")

По словам Бернарда Марра, автора, основного докладчика и советника: Когда Алекса ошибается при интерпретации вашего запроса, эти данные используются для улучшения системы в следующий раз. Машинное обучение - причина быстрого улучшения возможностей голосового пользовательского интерфейса . ("источник")

На веб-сайте Amazon мы можем прочитать, что «с пониманием естественного языка (NLU) компьютеры могут определять, что на самом деле означает говорящий, а не только слова, которые он произносит. По сути, это то, что позволяет голосовым технологиям, таким как Alexa, делать выводы о том, что вы, вероятно, запрашиваете местный прогноз погоды, когда спрашиваете: «Алекса, как там на улице?»

Сегодняшние голосовые технологии основаны на NLU - искусственном интеллекте, в основе которого лежит распознавание закономерностей и значений в человеческом языке. Обработка естественного языка с голосовыми помощниками в качестве прокси уже изменила наше понимание технологий, как дома, так и в других сферах ». ("источник")

Вы можете ознакомиться с кодом устройства Alexa здесь:



Для дополнительной информации: