Это введение в「PytorchDcTts」, модель машинного обучения, которую можно использовать с ailia SDK. Вы можете легко использовать эту модель для создания приложений ИИ с помощью ailia SDK, а также многих других готовых к использованию AIlia MODELS.

Обзор

PytorchDcTts (Pytorch Deep Convolutional Text-to-Speech) – это модель машинного обучения, выпущенная в октябре 2017 года. Она способна генерировать аудиофайл голоса, произносящего заданный входной текст.



Архитектура

Рекурсивные нейронные сети (RNN) обычно используются для задач синтеза речи, но проблема заключается в том, что их обучение занимает много времени. Чтобы решить эту проблему, PytorchDcTts использует CNN для построения синтеза речи, который можно изучить примерно за 15 часов на обычном игровом ПК.

Синтез речи без глубокого обучения опирается на сложную систему с несколькими компонентами, такими как анализатор текста, генератор F0, генератор спектра, средство оценки пауз и вокодер.

Благодаря глубокому обучению эти несколько компонентов могут быть объединены в единую сквозную модель, позволяющую напрямую вычислять ввод-вывод.

Архитектура модели PytorchDcTts работает следующим образом.

На блок-схеме выше входной текст векторизован с помощью TextEnc Внимание создает пары текста и мелспектограммы с весами. Затем AudioDec вычисляет melspectrum, и SSRN (сеть Spectrogram Super-resolution Netrowk) используется для улучшения качества звука.

Ниже приведен пример синтеза речи. Сверху мы видим Внимание, мел-спектрограмму и линейную спектрограмму STFT.

Для обучения использовался набор данных LJ Speech Dataset, который состоит из 13 тысяч пар текста и связанных с ним речей, всего за 24 часа данных.



использование

Вы можете использовать следующую команду для вывода wav-файла из любого текста на английском языке.

$ python3 pytorch-dc-tts.py -i "Hello world" -s output.wav

Вот пример выходной речи входного текста, представляющего ailia SDK.



Топор Инк. разработал ailia SDK, который обеспечивает кросс-платформенный быстрый вывод на основе графического процессора.

ax Inc. предоставляет широкий спектр услуг от консалтинга и создания моделей до разработки приложений и SDK на основе ИИ. Не стесняйтесь связаться с нами для любого запроса.