Речевая технология - это тип коммуникационной технологии, которая позволяет электронным устройствам распознавать, анализировать и понимать устное слово или звук. Подполи речевой технологии включают обработку речи и ее приложения, такие как распознавание речи, проверка речи, преобразование голоса (VC), преобразование речи в текст в реальном времени, интерактивный голосовой ответ (IVR), синтез речи и анализ речи.

Речь - это больше, чем просто сигнал.

Речевой сигнал содержит лингвистическую информацию со многими другими просодическими элементами, такими как высота звука, интонация, эмоции, акцент и т. Д. Поскольку речь является основной формой общения, развитие речевых технологий является важным шагом на пути к использованию неструктурированных голосовых данных. Машинное обучение (ML) играет жизненно важную роль в разработке многих алгоритмов обработки речи, чтобы использовать силу речи и улучшить жизнь с помощью речевых технологий. С появлением решений искусственного интеллекта (AI) для предприятий речевые технологии нашли множество приложений во всех секторах, включая право, здравоохранение, безопасность, финансы, корпоративное и личное использование. Персональные голосовые помощники, такие как Siri, Google Home и Amazon Alexa, - это устройства, предлагающие индивидуализированные речевые технологии. Эти интеллектуальные персональные помощники (IPA) сделали нашу повседневную жизнь проще и удобнее. Обработка речи и обработка естественного языка (NLP) с использованием машинного обучения позволяют интеллектуальным устройствам, таким как смартфоны, взаимодействовать с пользователями посредством устного языка. Крупные компании, такие как Apple, Google, Amazon, Microsoft, проделывают замечательную работу по улучшению голосовых помощников. Однако в настоящее время эти IPA сталкиваются с проблемой распознавания речи шепотом. В какой-то мере мы пытались решить эту проблему с помощью алгоритмов на основе машинного обучения. Наша исследовательская работа:

Новый MMSE DiscoGAN для междоменного преобразования шепота в речь, опубликованный в журнале Машинное обучение в обработке речи и языка (MLSLP), Google, Хайдарабад, Индия, 7 сентября 2018 г. (< См. наши исследования здесь ).

С моей точки зрения, машинное обучение - это управление данными таким образом, чтобы машина могла узнать то, что мы хотим. Для применения алгоритмов на основе машинного обучения наиболее важно понимание природы данных. Если вы понимаете данные, вы можете творить чудеса. На предприятиях применение продуктов увеличивает интерес к решению проблем с помощью машинного обучения. Во-первых, в этом блоге я рассказал о приложениях преобразования WHiSPer-to-SPeeCH (WHSP2SPCH). Во-вторых, я сосредоточился на характере данных, которые у нас есть. Речь идет о понимании свойств разговорной речи и нормальных речей. Затем я рассказал о том, почему и как мы использовали алгоритм на основе машинного обучения для решения этой проблемы преобразования.

Приложения

Основные причины шепота могут заключаться в том, чтобы сделать беседу конфиденциальной, беседой в тихой обстановке, такой как библиотека, больница, конференц-зал, а также для различных криминалистических приложений. Кроме того, люди, страдающие заболеваниями голосовых связок, иногда могут говорить шепотом. В таких случаях для повышения разборчивости речи шепотом с целью улучшения качества связи (при личной встрече или по телефону) требуется метод преобразования WHSP2SPCH. Чтобы это произошло с использованием машинного обучения, мы должны понять свойства обоих выступлений.

Шепот против обычной речи

Хотя шепот и нормальная речь являются способами общения, они отличаются от производства речи и точки зрения восприятия. Различия между шепотом и нормальной речью заключаются в следующем:

  • Полное отсутствие периодического возбуждения или гармонической структуры в шепотной речи;
  • Сдвиг для нижних локаций формант;
  • Изменение общего спектрального наклона (становится более пологим, с уменьшением от низкочастотной области);
  • Сдвиг границ областей гласных в частотном пространстве F1-F2;
  • Изменение как энергетических, так и долговременных характеристик.

Шумовое возбуждение в шепотной речи обычно распространяется по нижней части речевого тракта, что приводит к снижению мощности на 20 дБ по сравнению с эквивалентной нормальной речью. Более того, также было замечено, что кортикальный гемодинамический ответ был более глубоким из-за более слабого стимула для шепотной речи, чем его нормальный речевой аналог. Технически речь шепотом бывает глухой или апериодической. Однако было замечено, что ощущение высоты звука все еще существует, что замысловатым образом заключено в шепотную речь. Следовательно, мы предсказали основную частоту (F0) по кепстральным характеристикам (т. Е. Mel Cepstral Coefficients) преобразованной нормальной речи вместо того, чтобы предсказывать непосредственно по кепстральным характеристикам прошептанная речь.

Для людей очень естественно признавать междоменные отношения так легко из-за их эффективного механизма восприятия. Однако машинам трудно достичь такой же способности. Другими словами, поиск функции отображения из одного домена в другой можно рассматривать как создание изображения в одном домене с учетом другого изображения в другом домене. В последнее время архитектуры на основе генеративной состязательной сети (GAN) стали более популярными для обнаружения таких междоменных отношений. Однако традиционные сети GAN не работают эффективно, когда дело доходит до междоменных отношений. Эта проблема также создает интересную проблему с точки зрения обучения в обеих областях - компьютерном зрении и технологии речи.

Ключевые ограничения и решения

Ключевое ограничение системы на основе ванильной GAN заключается в создании выборок, которые могут не соответствовать заданным входным данным. Чтобы решить эту проблему, мы недавно предложили использовать среднеквадратичную ошибку (MSE) в качестве регуляризатора стандартного GAN (т. Е. MMSE-GAN) в этой статье. Более того, традиционные сети GAN работают лучше, когда мы используем явные парные данные. Традиционные сети GAN не могут поддерживать междоменные отношения между данными. Чтобы решить эту проблему, нам нужно изменить метод обучения традиционных GAN. Итак, мы предлагаем применить MMSE-GAN и его расширение в форме Discover GAN (например, MMSE DiscoGAN), чтобы изучить междоменные отношения (относительно атрибутов механизма формирования речи) между прошептала и нормальная речь.

Обзор алгоритма

Мы использовали в общей сложности 40 шепотных говорящих и соответствующие им данные нормальной речи из двух баз данных, а именно ХАРАКТЕРИСТИКА ИНДИВИДУАЛЬНЫХ РЕЧЕЙ (ЦЕПИ) и Электромиографический (ЭМГ) -UKA Trail corpus . Из обеих баз данных для обучения и тестирования было взято 1302 и 108 высказываний соответственно. 25 -D Mel Cepstral Coefficients (MCC) (включая 0 -й коэффициент) и 1 -D F0 на кадр (с 25 длительность кадра в мс и смещение кадра 5 мс) были извлечены с помощью AHOCODER. Однако одной из основных проблем перед изучением функции отображения для системы преобразования WHSP2SPCH является синхронизация по времени между шепотом и соответствующей ему нормальной речью. Для этого мы использовали алгоритм Динамическое искажение времени (DTW). Дополнительные сведения об архитектуре см. В нашем документе.

MMSE DiscoGAN

Эта архитектура используется для изучения 1) сопоставления между кепстральными функциями, соответствующими шепоту (Xw) и нормальной речи (Xs), и 2) сопоставления между преобразованными кепстральными функциями и соответствующим F0 нормальной речи.

В частности, мы расширили MMSE-GAN через MMSE DiscoGAN, включив два генератора Gws и Gsw. Gws в основном преобразует параметры, соответствующие шепотной речи (Xw), в Xws = Gws (Xw), так что Xws неотличим от параметров нормальной речи (Xs). Наша модель также содержит два дискриминатора, Dw и Ds. Дискриминатор Dw пытается отличить Xw от распределения параметров шепчущей речи (т. Е. Pw) и преобразованных параметров шепченной речи (т. Е. Xsw = Gsw (Xs)), полученных путем преобразования Xs из распределения параметров нормальной речи (т. Е. Ps) через генератор Gsw. Ds выполняет аналогичную операцию для параметров нормальной речи (Xs). Чтобы сопоставить параметры шепчущей речи с параметрами нормальной речи, мы полагаемся на регуляризованную состязательную целевую функцию с использованием потерь MSE и определяемую как:

Состязательный проигрыш:

Здесь Gws, Gsw, Dw и Ds должны быть обучены совместно, с одной значительной модификацией, включающей две потери восстановления Lw и Ls. Математически это можно представить как:

Убыток при реконструкции:

Минимизация потерь при восстановлении при преобразовании параметров шепченной речи в параметры нормальной речи заставляет сгенерированные параметры шепотной речи быть близкими к исходным параметрам шепотной речи. Минимизация состязательных потерь при преобразовании параметров шепчущей речи в параметры нормальной речи заставляет сгенерированные параметры нормальной речи быть близкими к исходным параметрам нормальной речи. Эти два свойства исследуются, чтобы стимулировать взаимно однозначное сопоставление между двумя доменами. (Подробный процесс обучения)

Вы можете увидеть реализацию нашей работы по ссылке ниже на GitHub:



Полученные результаты

Мы анализируем архитектуру MMSE DiscoGAN с точки зрения объективных и субъективных результатов. Среднеквадратичная ошибка (RMSE) журнала (F0) используется в качестве объективной меры, поскольку ключевая цель состоит в том, чтобы точно предсказать F0 по шепоту. Более подробный анализ представлен в нашей статье.

Субъективные результаты представлены на сайте ниже:



Заключительные комментарии

  1. Преобразование WHSP2SPCH может сделать IPA или голосовые помощники более эффективными с точки зрения распознавания шепота.
  2. Эта идея улучшает жизнь пациентов, страдающих патологическими проблемами шепчущейся речи.
  3. Эта идея также дает краткий обзор использования машинного обучения в области речевых технологий.
  4. В будущем использование высококачественных вокодеров, таких как WORLD или Wavenet, может еще больше улучшить качество голоса преобразованного речевого сигнала.

Благодарности

Особая благодарность Kim et. al. за привнесение идеи DiscoGAN в домен компьютерного зрения (CV). Благодарим Google за предоставленную нам платформу с точки зрения Машинное обучение в обработке речи и языка (MLSLP) для публикации нашей исследовательской работы. Также автор хотел бы поблагодарить Лабораторию исследования речи, DA-IICT, Гандинагар, за предоставленные ресурсы и место для проведения экспериментов.