Даже в шумной толпе система человеческого восприятия может эффективно уменьшать слуховую двусмысленность, чтобы идентифицировать и изолировать активного говорящего — действие, выполняемое в значительной степени за счет использования визуальной информации. Недавнее исследование ИИ в области разделения речи изучало способы связать движения губ в видео со звуком, но этот подход страдает, когда губы говорящих закрыты, что часто происходит в загруженных средах с несколькими говорящими.

Вдохновленная работами в области когнитивных наук, команда из Техасского университета в Остине и Facebook AI Research представила подход, который использует в качестве исходных данных видео целевого говорящего в среде с перекрывающимися голосами или звуками и генерирует изолированную звуковую дорожку оратор. VisualVoice — это новая многозадачная обучающая среда, которая совместно изучает аудиовизуальное разделение речи вместе с кросс-модальными встраиваниями динамиков, эффективно используя внешний вид человека для прогнозирования звуков его голоса.

Исследователи объясняют, что такие атрибуты, как пол, возраст, национальность и масса тела, присутствующие в лице, могут определять звуковые качества, такие как тон, высота тона, тембр и основа артикуляции. Модель может использовать это, чтобы узнать, что слушать, чтобы более точно идентифицировать и отделить речь человека от шумной среды. Сеть использует внешний вид лица, движение губ и голосовой звук для выполнения этой задачи разделения, которая дополняет традиционную парадигму «смешивания и разделения» для аудиовизуального разделения, чтобы также учитывать кросс-модальные контрастные потери, требующие согласования разделенного голоса. с лицом. Экономичность предлагаемого метода заключается в том, что его можно обучать и тестировать с использованием неразмеченного видео.

Подход был оценен на пяти эталонных наборах данных для аудиовизуального разделения речи, улучшения речи и кросс-модальной проверки говорящего с использованием стандартных показателей, таких как отношение сигнал-искажение (SDR), отношение сигнал-помеха (SIR) и сигнал. Отношение артефактов к артефактам (SAR) и два показателя, специфичных для речи: перцептивная оценка качества речи (PESQ), которая измеряет общее качество восприятия отдельной речи, и краткосрочная объективная разборчивость (STOI), которая коррелирует с разборчивость сигнала.

VisualVoice преуспел в аудиовизуальном разделении речи и улучшении в сложных реальных видео, превосходя методы SOTA по всем показателям во всех наборах данных. Исследователи говорят, что встраивание, изученное их моделью, также улучшило SOTA для неконтролируемой кросс-модальной проверки говорящего.

Разделение речи имеет практическое применение в вспомогательных технологиях для слабослышащих, носимых устройствах дополненной реальности, преобразовании речи в текст в шумных видео и многом другом. В будущей работе исследователи планируют явно смоделировать детализированные кросс-модальные атрибуты лиц и голосов и использовать их для дальнейшего улучшения разделения речи.

Статья VisualVoice: Аудиовизуальное разделение речи с межмодальной согласованностью находится на arXiv.

Аналитик: Рейна Ци Ван | Редактор: Майкл Саразен; Фанюй Кай

Синхронизированный отчет | Обзор китайских решений искусственного интеллекта в ответ на пандемию COVID-19 — 87 тематических исследований от более чем 700 поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использует технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Вместе с этим отчетом мы также представили базу данных, охватывающую дополнительные 1428 решений искусственного интеллекта для 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.