1. Улучшение обучения представлению речи с помощью подхода маскирования на уровне речи и фонемы(arXiv)

Автор:Сюлун Чжан, Цзяньцзун Ван, Нин Ченг, Кексин Чжу, Цзин Сяо

Аннотация: восстановление замаскированных речевых кадров широко применяется в обучении речевому представлению. Однако большинство этих моделей используют случайное маскирование при предварительном обучении. В этой работе мы предложили два подхода к маскированию: (1) маскирование на уровне речи, заставляющее модель маскировать больше речевых сегментов, чем сегментов тишины, (2) маскирование на уровне фонемы, заставляющее модель маскировать целые кадры речи. фонема, а не части фонемы. Мы предварительно обучили модель с помощью этих двух подходов и оценили две последующие задачи: классификацию фонем и распознавание говорящего. Эксперименты показали, что предложенные подходы к маскированию полезны для улучшения производительности представления речи.

2. HuBERT-TR: возрождение автоматического распознавания речи на турецком языке с помощью самоконтролируемого обучения репрезентации речи(arXiv)

Автор:Али Сафая, Энгин Эрзин

Аннотация .Хотя турецкий язык относится к числу языков с ограниченным ресурсом, литература по турецкому автоматическому распознаванию речи (ASR) относительно старая. В этой статье мы представляем HuBERT-TR, модель представления речи для турецкого языка, основанную на HuBERT. HuBERT-TR достигает самых современных результатов на нескольких наборах данных ASR Турции. Мы изучаем предварительную подготовку HuBERT для турецкого языка с помощью крупномасштабных данных, взятых из онлайн-ресурсов. Мы предварительно обучаем HuBERT-TR, используя более 6500 часов речевых данных, собранных с YouTube, которые включают в себя широкий спектр вариаций качества и жанра. Мы показываем, что языковые модели превосходят другие предварительно обученные модели, где наша турецкая модель HuBERT-TR/base работает лучше, чем в 10 раз более крупная современная многоязычная модель XLS-R-1b в условиях ограниченных ресурсов. настройки. Кроме того, мы изучаем влияние масштабирования на производительность ASR, масштабируя наши модели до параметров 1B. Наша лучшая модель дает самый современный уровень ошибок в словах 4,97% в наборе данных Turkish Broadcast News. Модели доступны на https://huggingface.co/asafaya

3.Об использовании семантически выровненных представлений речи для понимания разговорной речи(arXiv)

Автор: Гаэль Лаперьер, Валентин Пеллоин, Микаэль Рувье, Темос Стафилакис, Яник Эстев.

Аннотация: в этой статье мы исследуем использование семантически выровненных представлений речи для сквозного понимания разговорной речи (SLU). Мы используем недавно представленную модель SAMU-XLSR, которая предназначена для создания единого встраивания, фиксирующего семантику на уровне высказывания, семантически выровненного для разных языков. Эта модель сочетает в себе модель обучения представлению речи на уровне акустического кадра (XLS-R) с моделью языкового независимого внедрения предложений BERT (LaBSE). Показано, что использование модели SAMU-XLSR вместо исходной модели XLS-R значительно повышает производительность в рамках сквозного SLU. Наконец, мы представляем преимущества использования этой модели для языковой переносимости в SLU.