1. Введение в технологию синтеза речи

1.1 Что такое синтез речи?

Технология синтеза речи позволяет преобразовывать текст в речь. Это незаменимый модуль для взаимодействия человека с компьютером. Технология распознавания речи позволяет компьютерам «слушать» человеческую речь и преобразовывать речевые сигналы в слова. Технология преобразования речи позволяет компьютерным программам «проговаривать» слова, которые мы вводим, и преобразовывать их в речь.

1.2 Сценарии применения и область исследований технологии синтеза речи

Технология синтеза речи является незаменимым модулем для взаимодействия человека с компьютером. Он широко используется в различных сценариях, от приложений навигации по карте (таких как голосовая навигация AutoNavi с участием Гао Сяосуна), голосовых помощников (Siri, Google Assistant, Cortana), романов и чтения новостей (Shuqi.com, Baidu Novels), интеллектуальных динамиков ( Alexa, Tmall Genie), интерпретация голоса в режиме реального времени, для различных видов обслуживания клиентов и колл-центров, и даже объявлений в аэропортах, метро и автобусах.

Помимо преобразования текста в речь, технология синтеза речи включает, помимо прочего, преобразование говорящих (как в фильмах о Джеймсе Бонде), расширение полосы пропускания речи (например, Хацунэ Мику, японская поп-звезда), синтез шепота, синтез диалектов ( диалекты в провинциях Сычуань и Гуандун, артикуляция древнекитайского языка), синтез звуков животных и др.

1.3 Типичная блок-схема системы синтеза речи

Как показано на диаграмме ниже, типичная система синтеза речи состоит из двух компонентов: внешнего и внутреннего.

Интерфейсный компонент фокусируется на анализе ввода текста и извлечении информации, необходимой для внутреннего моделирования. Это включает в себя разбиение на слова (оценку границы слова), аннотацию частей речи (например, существительное, глагол, прилагательное), проекцию ритмической структуры (будь то граница метрической фразы) и устранение неоднозначности полифонов.

Серверный компонент считывает результаты внешнего анализа и объединяет речевую и текстовую информацию для моделирования. В процессе синтеза серверная часть генерирует выходные речевые сигналы, используя текстовый ввод и хорошо обученные акустические модели.

1.4 Процесс производства речи

Когда человек говорит, легочный поток воздуха, идущий вдоль голосовых связок, модулируется формой ротовой полости и производится через губы. Когда человек говорит тихо, проходящий легочный поток воздуха не вызывает вибрации голосовых связок, что обозначается как сигнал белого шума. И наоборот, когда человек произносит гласные и звонкие согласные звуки, голосовые связки ритмично вибрируют, что обозначается как последовательность импульсов. Частота вибрации голосовых связок называется основной частотой (f0). Тон и звучание человеческой речи зависят от формы ротовой полости. Проще говоря, воспроизведение человеческой речи — это процесс, при котором сигнал накачки (поток воздуха) модулируется фильтром (форма ротовой полости) и излучается через губы.

1.5 Три вида существующих систем синтеза речи

Существующие системы синтеза речи делятся на три типа на основе различных принятых методов и рамок:

  1. Система параметрического синтеза речи
  2. Система синтеза речи сплайсинга
  3. Система статистического синтеза речи на основе сигналов (WaveNet)

В настоящее время первые две системы являются основными системами, используемыми крупными компаниями, в то время как метод WaveNet является самой горячей областью исследований в настоящее время. Рассмотрим каждую из этих систем подробно:

Система параметрического синтеза речи

На этапе анализа системы параметрического синтеза речи речевые волны преобразуются в вокальные или ритмические параметры, такие как частотный спектр, основная частота и длительность, с использованием вокодера в соответствии с характеристиками воспроизведения речи. На этапе моделирования строятся модели вокальных параметров. На этапе синтеза речи речевые сигналы во временной области восстанавливаются из спроецированных вокальных параметров с помощью вокодера.

Преимущество параметрической системы синтеза речи заключается в меньшем размере моделей, простоте настройки параметров модели (преобразование динамиков, повышение или понижение тона) и стабильности синтеза речи. Недостаток заключается в том, что после параметризации синтезированной речи происходит некоторая потеря акустической достоверности по сравнению с исходной записью.

Система синтеза речи

В этой системе исходная запись не параметризуется, а нарезается и сохраняется в виде основных единиц. В процессе синтеза целевая стоимость и стоимость сплайсинга каждой единицы рассчитываются с использованием определенных алгоритмов или моделей, и, наконец, синтезированная речь «сращивается» с использованием алгоритма Витерби и методов обработки сигналов, таких как PSOLA (Pitch Synchronized Overlap-Add) и WSOLA. (Сходство сигналов на основе перекрытия-добавления).

Преимущество сплайсингового синтеза речи заключается в акустическом качестве без потери качества в результате параметризации речевых единиц. Для небольших баз данных, в которых отсутствуют подходящие речевые единицы, могут существовать сбои в синтезированной речи, ритм или звук могут быть недостаточно стабильными. Поэтому требуется большее хранилище.

Система статистического синтеза речи на основе сигналов (WaveNet)

WaveNet был впервые представлен Deep Mind с Dilated CNN (расширенная сверточная нейронная сеть) в качестве основного блока. В этом методе речевые сигналы не параметризуются, а нейронная сеть используется для прогнозирования каждой точки дискретизации во временной области для синтеза речевых сигналов. Преимущество заключается в лучшей акустической точности, чем у системы параметрического синтеза, но качество немного ниже, чем у синтеза сплайсинга. Однако она более стабильна, чем система сплайсинг-синтеза. Недостаток заключается в том, что требуется большая вычислительная мощность, а процесс синтеза идет медленнее, так как требует проекции каждой точки дискретизации. Доказано, что WaveNet может предсказывать речевые сигналы во временной области, что ранее было невозможно. В настоящее время WaveNet является самой горячей областью исследований.

1.6 Критерии оценки синтеза речи

Поскольку качество тона относительно субъективно, хороший или плохой синтез речи оценивается многими специалистами по проверке слуха с использованием метода MOS (средняя оценка мнения). Диапазон MOS составляет от 1 до 5 баллов, из которых 1: Плохо, 2: Плохо, 3: Удовлетворительно, 4: Хорошо, 5: Отлично. МОС используется для оценки акустического качества, разборчивости, сходства и других особенностей синтеза речи, а также целостной естественности речи.

2. Введение в диссертации по синтезу речи

Ниже приводится введение в диссертации по синтезу речи, представленные на Interspeech 2017. На мероприятии была проведена специальная сессия для обсуждения различных приложений WaveNet. Во время конференции многие крупные компании представили статьи, представляющие их онлайн-системы синтеза речи, такие как Siri, и Apple впервые представила структуру своей системы Siri.

2.1 WaveNet и новые парадигмы

Этот раздел посвящен возможностям Wavenet. Введение посвящено следующим диссертациям:

2.1.1 ДОКУМЕНТ Tue-O-4–1–1 — Вокодер WaveNet, зависящий от динамика

В этой статье, представленной Японским университетом Нагоя, WaveNet используется в качестве вокодера, который отличается от основного WaveNet и зависит не от лингвистических характеристик, а от акустических характеристик каждого кадра (акустических параметров, таких как основная частота и основная частота). Синтез речи достигается с использованием акустических характеристик, определенных для каждого кадра, и WaveNet, но без какого-либо традиционного вокодера. Эксперименты показали, что вокодер WaveNet лучше, чем традиционный вокодер MLSA (Mel-Log S) для разных наборов динамиков.

Однако автор также упомянул, что обучение и проецирование WaveNet — это очень медленный процесс с использованием одного графического процессора TITAN X, в ходе которого обучение каждого выступающего занимает 2 дня, а синтез 3-секундной речи — 6 минут.

2.1.2 ДОКУМЕНТ Tue-O-4–1–2 — Моделирование формы сигнала с использованием сложенных расширенных сверточных нейронных сетей для расширения полосы пропускания речи

Эта статья, представленная лабораторией iFLYTEK, направлена ​​на использование структуры WaveNet для предсказания широкополосных речевых сигналов из узкополосных. В отличие от базового WaveNet, этот метод заменяет авторегрессионное производство на метод прямого отображения и сравнивает неслучайную CNN со случайной CNN. В статье делается вывод о том, что наилучших результатов можно достичь, предсказывая сначала только высокочастотные сигналы, а затем комбинируя их с низкочастотными сигналами для получения широкополосных сигналов.

2.1.3 ДОКУМЕНТ Tue-O-4–1–5 — Статистическое преобразование голоса с генерацией сигналов на основе WaveNet

В этой статье, также представленной Японским университетом Нагоя, используется структура WaveNet для преобразования человеческой речи (преобразование голоса), и делается вывод о том, что это лучше, чем традиционный метод на основе GMM. На самом деле, эта статья также использует WaveNet в качестве вокодера, а в процессе синтеза использует преобразованные речевые параметры как условие для создания речевой волны. На следующей диаграмме показана структура преобразования голоса на основе WaveNet.

2.2 Статьи, представляющие системы синтеза крупных компаний

2.2.1 Apple: встроенная в устройство система преобразования текста в речь на основе алгоритма глубокого обучения Siri

В качестве первой статьи, знакомящей с Siri, она посвящена прогрессу, достигнутому Apple в отношении глубокого изучения TTS, и тому, как ее TTS улучшилась. С точки зрения экспериментальных результатов, система синтеза речи, основанная на сети смешанной плотности (MDN), очевидно, лучше, чем предыдущие традиционные системы синтеза Siri для различных языковых категорий. Конкретные результаты следующие:

2.2.2 Синтезатор выбора единиц измерения в реальном времени Google следующего поколения с использованием автокодировщиков на основе LSTM Sequence-to-Sequence

2.2.3 Нюанс: выбор единиц измерения с помощью иерархических каскадных двунаправленных рекуррентных нейронных сетей с долговременной кратковременной памятью

Nuance Communications также представила статью, представляющую свою систему синтеза, систему синтеза сплайсинга, основанную на Hierarchical LSTM. Результаты показывают, что иерархическая структура LSTM лучше любой неиерархической структуры LSTM в отношении ритма синтезированной речи.

2.2.4 Google: Tacotron: на пути к сквозному синтезу речи

Эта статья ранее была опубликована на arXiv. В отличие от WaveNet, система Tacotron строит модели и делает прогнозы по кадрам, а не по точкам выборки, и поэтому работает быстрее. Tacotron строит модели на основе спектрограмм, а WaveNet строит модели на основе сигналов. Поэтому, по сравнению с WaveNet, Tacotron теряет информацию о положении фазы в кадре. Tacotron восстанавливает волны непосредственно из спектрограммы, используя алгоритм Гриффина-Лима.

В акустической модели Tacotron дополнительно определяет нелинейный код для каждого встраиваемого слова, используя Pre-net, и повышает надежность модели, используя структуру CBHG. В процессе моделирования автор использует механизм внимания для контроля состояния каждого кадра. В этой модели ввод текущего кадра получается из ввода вывода последнего кадра.

Ссылка:

https://www.alibabacloud.com/blog/Interspeech-2017---Speech-Synthesis-Technology_p420897?spm=a2c41.11217428.0.0