Эй, Гугл! Сыграй мне песню Йоасоби!

Если бы мы не были ограничены в свободном перемещении по улице из-за этой ситуации с пандемией, я бы провел время с Google Smart Speaker в комнате секретаря моей студенческой организации в кампусе, отдыхая вместе с моим другом и прося умный динамик играть. нам немного музыки. Этот умный динамик на самом деле представляет собой динамик с «мозгом», посаженным внутри. Следовательно, он умный. Вот почему я могу попросить его что-нибудь сделать, например включить музыку или сообщить прогноз погоды на сегодня. «Мозг» здесь называется Google Assistant и представляет собой реализацию того, о чем вы наверняка слышали: машинного обучения.

Использование и производительность машинного обучения расширяются с действительно большим ускорением. Что-то, что мы не могли себе представить год назад, возможно сделать сегодня, используя какой-то алгоритм обучения. Меня всегда поражают новые технологии, созданные в этой области, в том числе этот продукт, Google Assistant, который возникает из ответвления машинного обучения, которое называется NLP (обработка естественного языка). Основная идея НЛП состоит в том, чтобы перевести то, что мы говорим, с нашего естественного языка (который иногда неоднозначен) на язык, понятный машине. У машины должна быть какая-то память, в которой хранится контекст разговора, иначе она не сможет естественно вести с нами разговор.

Существует еще один шаг перед выполнением задачи перевода. Он должен преобразовать наш голос в текст. Голос, как мы все знаем, на самом деле представляет собой волну, обладающую некоторыми свойствами, такими как амплитуда и частота. Как и стандартное устройство записи голоса, динамик может просто преобразовать наш голос из аналоговой волны в цифровую. Затем эта цифровая волна преобразуется в токен слов (которые, как мы надеемся, будут такими же, как то, что мы говорим говорящему), снова используя алгоритм обучения. Эта ветвь машинного обучения называется обработкой речи. У него другая цель, чем у НЛП, о котором мы говорили ранее. Модель обработки речи может не нуждаться в памяти, чтобы иметь контекст, но она должна знать, как последовательность волн преобразуется в слово или, может быть, часть волны преобразуется в фонему.

Итак, умный динамик — это, по сути, комбинация двух моделей машинного обучения. Представьте, что он отвечает нам быстро, всего через 1 секунду после того, как мы спрашиваем. Помимо двух вышеперечисленных процессов, ему также может потребоваться получить некоторые данные из календаря (если мы запрашиваем расписание), из Интернета (если мы запрашиваем новости) или даже вызвать внешний API. Это сложный процесс, выполненный за короткое время, и я думаю, что это действительно здорово — испытать такую ​​передовую технологию.

Музыка перестает играть.

Ладно, гугл! Спасибо, что играете для меня музыку. Эй, ты что… краснеешь? о е-