1. PCNN: легкая нейронная сеть с параллельным конформером для эффективного улучшения монофонической речи (arXiv)

Автор: Синьмэн Сюй, Вэйпин Ту, Юхун Ян

Аннотация: Сверточные нейронные сети (CNN) и Transformer добились огромного успеха в мультимедийных приложениях. Однако необходимо приложить больше усилий для эффективной гармонизации этих двух архитектур для обеспечения улучшения речи. Целью данной статьи является объединение этих двух архитектур и представлен параллельный конформер для улучшения речи. В частности, CNN и самообслуживание (SA) в Transformer полностью используются для шаблонов локального формата и представлений глобальной структуры. Основываясь на небольшом размере рецептивного поля CNN и высокой вычислительной сложности SA, мы специально разработали модуль многоветвевой дилатационной свертки (MBDC) и модуль внимания к собственной частоте-времени (Self-CTFA). MBDC содержит три сверточных слоя с разной степенью расширения для функции от локальной до нелокальной обработки. Результаты экспериментов показывают, что наш метод работает лучше, чем современные методы по большинству критериев оценки, сохраняя при этом самые низкие параметры модели.

2. Влияние разговорной речи на улучшение речи с использованием функций потери речевого представления с самоконтролем (arXiv)

Автор: Джордж Клоуз, Томас Хейн, Стефан Гетце.

Аннотация: Недавние работы в области улучшения речи (SE) включали использование самоконтролируемых речевых представлений (SSSR) в качестве преобразований признаков в функциях потерь. Однако в предыдущей работе очень мало внимания уделялось взаимосвязи между языком аудио, используемым для обучения самоконтролируемого представления, и языком, используемым для обучения системы SE. Модели расширения, обученные с использованием функции потерь, которая включает в себя самоконтролируемое представление, которое в точности соответствует языку зашумленных данных, используемых для обучения системы SE, показывают лучшую производительность, чем те, которые не совпадают точно. Это может привести к созданию систем улучшения, которые специфичны для языка и, как таковые, плохо обобщаются на невидимые языки, в отличие от моделей, обученных с использованием традиционных спектрограмм или функций потерь во временной области. В этой работе модели SE обучаются и тестируются на нескольких различных языках с самоконтролируемыми представлениями, которые сами обучаются с использованием разных языковых комбинаций, и с разными сетевыми структурами в качестве представлений функции потерь. Затем эти модели тестируются на неизвестных языках и анализируется их производительность. Обнаружено, что язык обучения самоконтролируемого представления, по-видимому, оказывает незначительное влияние на производительность улучшения, однако объем обучающих данных конкретного языка сильно влияет на производительность.