1. Кросс-модальное глобальное взаимодействие и локальное выравнивание для аудиовизуального распознавания речи (arXiv)

Автор: Юйчэнь Ху, Жуйчжэ Ли, Чэнь Чен, Хэцин Цзоу, Цюши Чжу, Энг Сионг Чнг.

Аннотация: В последнее время исследования в области аудиовизуального распознавания речи (AVSR) добились больших успехов за счет повышения помехоустойчивости автоматического распознавания речи (ASR) только для аудио с инвариантной к шуму визуальной информацией. Тем не менее, большинство существующих подходов AVSR просто объединяют аудио и визуальные характеристики путем конкатенации без явных взаимодействий для фиксации глубоких корреляций между ними, что приводит к неоптимальным мультимодальным представлениям для задачи распознавания речи в нисходящем направлении. В этой статье мы предлагаем кросс-модальный подход глобального взаимодействия и локального выравнивания (GILA) для AVSR, который фиксирует глубокие аудиовизуальные (AV) корреляции как с глобальной, так и с локальной точек зрения. В частности, мы разрабатываем глобальную модель взаимодействия, чтобы зафиксировать комплементарные отношения AV на уровне модальности, а также подход локального выравнивания для моделирования временной согласованности AV на уровне кадра. Такой целостный взгляд на кросс-модальные корреляции позволяет лучше мультимодальные представления для AVSR. Эксперименты на общедоступных тестах LRS3 и LRS2 показывают, что наш GILA превосходит современное обучение с учителем.

2.Auto-AVSR: аудиовизуальное распознавание речи с автоматическими метками (arXiv)

Автор: Пинчуань Ма, Александрос Халиассос, Адриана Фернандес-Лопес, Хонгли Чен, Ставрос Петридис, Майя Пантик.

Аннотация: Аудиовизуальное распознавание речи привлекло большое внимание из-за его устойчивости к акустическим шумам. В последнее время производительность автоматического, визуального и аудиовизуального распознавания речи (ASR, VSR и AV-ASR соответственно) была существенно улучшена, в основном за счет использования более крупных моделей и обучающих наборов. Однако точная маркировка наборов данных требует много времени и денег. Следовательно, в этой работе мы исследуем использование автоматически сгенерированных транскрипций немаркированных наборов данных для увеличения размера обучающей выборки. Для этой цели мы используем общедоступные предварительно обученные модели ASR для автоматической расшифровки неразмеченных наборов данных, таких как AVSpeech и VoxCeleb2. Затем мы обучаем модели ASR, VSR и AV-ASR на расширенном обучающем наборе, который состоит из наборов данных LRS2 и LRS3, а также дополнительных автоматически расшифрованных данных. Мы демонстрируем, что увеличение размера обучающей выборки, недавняя тенденция в литературе, приводит к снижению WER, несмотря на использование зашумленных транскрипций. Предлагаемая модель обеспечивает новую современную производительность на AV-ASR на LRS2 и LRS3. В частности, он достигает WER 0,9% на LRS3, что является относительным улучшением на 30% по сравнению с текущим современным подходом, и превосходит методы, которые были обучены на закрытых наборах данных с 26-кратным увеличением обучающих данных. .