Эта статья является частью серии Academic Alibaba и взята из статьи под названием Адаптация говорящего на основе линейных сетей для синтеза речи, написанной Чжиин Хуан, Хэн Лу, Мин Лей, Чжицзе Янь. , принят IEEE ICASSP 2018. Полный текст статьи можно прочитать здесь

Акустические модели, зависящие от говорящего, гарантируют, что системы синтеза речи будут давать точные результаты. При достаточном количестве обучающих данных от целевых говорящих системы синтеза речи могут генерировать результаты, аналогичные целевому говорящему. Однако получение достаточного количества данных от целевых говорящих всегда является ограничением.

Адаптацию говорящего можно использовать для получения удовлетворительных голосовых шрифтов целевого говорящего, используя только ограниченные данные. Этот подход менее трудоемок, чем массовая запись, ручная расшифровка и просмотр, и в конечном итоге снижает стоимость создания новых голосов.

Чтобы улучшить стабильность этих адаптированных голосов, техническая группа Alibaba исследовала применение методов адаптации динамиков на основе линейной сети (LN) и низкоранговой плюс диагональной декомпозиции (LRPD). Разбивка этих подходов показана ниже.

Эффективность этих подходов оценивалась путем проведения адаптации говорящего от женщины к женщине, от мужчины к женщине и от женщины к мужчине. Результаты показали, что использование LN с разложением LRPD наиболее эффективно, когда данные по адаптации крайне ограничены. Более того, использование этого метода с моделью адаптации говорящего, содержащей только 200 адаптационных высказываний, позволило достичь качества, сравнимого с качеством зависимой от говорящего модели, обученной на 1000 высказываний, с точки зрения естественности и сходства с целевыми говорящими.

Читать статью полностью здесь.

Алибаба Тех

Подробная информация из первых рук о новейших технологиях Alibaba → Найдите «Alibaba Tech» на Facebook.