1. Лучшее из обоих миров: многозадачное аудиовизуальное автоматическое распознавание речи и обнаружение активного говорящего (arXiv)

Автор:Отавио Брага, Оливье Сиохан

Аннотация. В шумных условиях автоматическое распознавание речи (ASR) может значительно улучшиться за счет добавления визуальных сигналов, исходящих от видео с изображением лица говорящего. Однако, когда видны несколько потенциальных говорящих, это традиционно требует решения отдельной задачи, а именно активного обнаружения говорящего (ASD), которая влечет за собой выбор в каждый момент времени, какое из видимых лиц соответствует звуку. Недавняя работа показала, что мы можем решить обе проблемы одновременно, используя механизм внимания к конкурирующим видеодорожкам лиц говорящих, за счет некоторой потери точности при обнаружении активного говорящего. Эта работа устраняет этот пробел в точности обнаружения активного говорящего, представляя единую модель, которую можно совместно обучать с потерей многозадачности. Комбинируя две задачи во время обучения, мы снижаем точность классификации ASD примерно на 25%, одновременно улучшая производительность ASR по сравнению с базовым уровнем для нескольких человек, обученных исключительно для ASR.

2.Многоаспектная многоуровневая оценка произношения носителей английского языка на основе трансформаторов (arXiv)

Автор: Юань Гун, Цзыи Чен, Иек-Хэн Чу, Пэн Чанг, Джеймс Гласс.

Аннотация . Автоматическая оценка произношения — важная технология, помогающая изучающим язык самостоятельно. Хотя качество произношения имеет несколько аспектов, включая точность, беглость, полноту и просодию, предыдущие попытки обычно моделировали только один аспект (например, точность) с одной степенью детализации (например, на фонемном уровне). В этой работе мы исследуем моделирование многоаспектной оценки произношения с различной степенью детализации. В частности, мы тренируем преобразователь на основе функций качества произношения (GOPT) с многозадачным обучением. Эксперименты показывают, что GOPT достигает наилучших результатов на speechocean762 с общедоступной акустической моделью автоматического распознавания речи (ASR), обученной на Librispeech.

3. Дизайн нового приложения для изучения корейского языка для эффективной коррекции произношения (arXiv)

Автор: Минджон Чхон, Минсон Ким, Хансон Джу

Аннотация:Корейская волна, которая означает глобальную популярность культурной экономики Южной Кореи, способствует увеличению спроса на корейский язык. Однако, поскольку приложения для изучения корейского языка для иностранцев не существует, в этой статье предлагается дизайн нового приложения для изучения корейского языка. Распознавание речи, преобразование речи в текст и преобразование речи в сигнал являются тремя ключевыми системами в предлагаемой системе. Google API и библиотека librosa преобразуют голос пользователя в предложение и MFCC. Затем программа отобразит фразу и ответ пользователя, а неправильно произнесенные элементы будут выделены красным цветом, что позволит пользователям легче распознавать неправильные части своего произношения. Кроме того, сиамская сеть может использовать эти переведенные спектрограммы для получения оценки сходства, которая впоследствии может быть использована для предоставления обратной связи пользователю. Несмотря на то, что нам не удалось собрать достаточно данных об иностранцах для этого исследования, примечательно, что мы представили новый метод исправления корейского произношения для иностранцев.

4.Почему обучение с самостоятельным наблюдением для распознавания речи приносит пользу распознаванию говорящего? (arXiv)

Автор: Саньюань Чен, Юй Ву, Чэнъи Ван, Шуцзе Лю, Чжо Чен, Пэйдун Ван, Ган Лю, Цзиньюй Ли, Цзянь Ву, Сянчжань Юй, Фуру Вэй

Аннотация: В последнее время самоконтролируемое обучение (SSL) продемонстрировало высокую эффективность в распознавании говорящего, даже если цель предварительного обучения предназначена для распознавания речи. В этой статье мы изучаем, какой фактор приводит к успеху обучения с самоконтролем при выполнении задач, связанных с говорящим, например. проверка динамика (SV) с помощью серии тщательно спланированных экспериментов. Наши эмпирические результаты на наборе данных Voxceleb-1 показывают, что преимущество задачи SSL to SV заключается в сочетании потери предсказания речи по маске, масштаба данных и размера модели, в то время как квантизатор SSL оказывает незначительное влияние. Мы также используем интегрированный метод атрибуции градиентов и визуализацию ландшафта потерь, чтобы понять эффективность самоконтролируемого обучения для эффективности распознавания говорящего.