1. Может ли знание сквозных моделей преобразования текста в речь улучшить нейронные системы синтеза MIDI в аудио? (arXiv)

Автор: Сюань Ши, Эрика Купер, Синь Ван, Джуничи Ямагиши, Шрикант Нараянан.

Аннотация: При сходстве музыки и синтеза речи из символьного ввода и быстром развитии методов преобразования текста в речь (TTS) стоит изучить способы улучшения производительности MIDI-в-аудио путем заимствования из методов TTS. В этом исследовании мы анализируем недостатки системы преобразования MIDI в аудио на основе TTS и улучшаем ее с точки зрения вычисления функций, выбора модели и стратегии обучения, стремясь синтезировать очень естественно звучащий звук. Кроме того, мы провели обширную оценку модели с помощью прослушивания, измерения высоты тона и анализа спектрограммы. Эта работа демонстрирует не только синтез очень естественной музыки, но и предлагает тщательный аналитический подход и полезные результаты для сообщества. Наш код и предварительно обученные модели находятся в открытом доступе по адресу https://github.com/nii-yamagishilab/midi-to-audio.

2. Адаптивный синтез речи для любого говорящего с использованием моделей распространения (arXiv)

Автор: Минки Кан, Дончан Мин, Сон Чжу Хван.

Аннотация: в последние годы был достигнут значительный прогресс в технологии синтеза текста в речь (TTS) благодаря прогрессу в нейронном генеративном моделировании. Однако существующие методы адаптивной TTS для любого говорящего показали неудовлетворительную эффективность из-за их субоптимальной точности в имитации стилей целевых говорящих. В этой работе мы представляем Grad-StyleSpeech, адаптивную структуру TTS для любого говорящего, основанную на диффузионной модели, которая может генерировать очень естественную речь с чрезвычайно высоким сходством с голосом целевых говорящих, учитывая несколько секунд эталонной речи. Grad-StyleSpeech значительно превосходит недавние базовые показатели TTS с адаптацией к говорящим в тестах на английском языке. Образцы аудио доступны по адресу https://nardien.github.io/grad-stylespeech-demo.