Это был долгий и сложный год со времени последней межпредметной беседы в Граце. Организаторы на этот раз предприняли отважные попытки поддерживать нормальную личную встречу сообщества обработки речи, зная ценность того, чтобы это собрание людей встречалось и взаимодействовало лицом к лицу. Однако было неизбежно, что переноса конференции всего на несколько недель было недостаточно, чтобы избежать полностью виртуального романа. Несмотря на то, что на пути возникли некоторые проблемы, в том числе проблемы с доступом к виртуальному порталу и отмена основного доклада в последний момент, организаторы хорошо поработали над созданием увлекательного опыта конференции.

Темы

Одна важная тема, которую я заметил на конференции, заключалась в том, что подходы к обучению с частично контролируемым обучением, наконец, начинают набирать обороты. Конечно, компьютерное зрение и обработка естественного языка в течение некоторого времени эффективно использовали подходы к обучению без учителя и с учителем. Несмотря на то, что было проведено множество исследований по применению этих методов к обработке звука и речи, влияние на результаты часто кажется незначительным. В частности, структура обучения ученик-преподаватель показала реальные перспективы, так как предоставила способ использовать очень большие объемы немаркированных данных для улучшения не только точности и обобщения, но и для обучения более компактным и вычислительно легким моделям.

Тема COVID-19, конечно же, просочилась в материалы конференции. Фактически, часть задачи компьютерного паралингвистики (ComParE) в этом году включала подзадачу по классификации речи как произнесенной человеком, использующим маску. Сессия ComParE также содержала статьи, посвященные непрерывному распознаванию дыхательных сигналов. Помимо того, что это связано с COVID, в сообществе обработки речи существует четкая тенденция к лучшему пониманию ситуационного контекста, в котором воспроизводится речь, а также к пониманию его более глубоко, чем просто произнесенные слова.

Основная презентация Шехзада Меваваллы включала обзор разговорного ИИ, в частности, в отношении виртуальных помощников, таких как Amazon Alexa. Однако, несмотря на это, подавляющее большинство работ по-прежнему сосредоточено на обработке речи, производимой людьми. Для меня удивительно, что в таких областях, как синтез речи и распознавание речевых эмоций, которые добились больших успехов в последние годы, не смещается акцент на разговорные и интерактивные настройки. Я надеюсь, что такие усилия, как новый MSP-Conversation Corpus (подробнее см. Основные моменты статьи ниже), помогут продвинуть исследования в этом направлении.

Бумага основные моменты

Вот несколько бумаг, которые привлекли мое внимание в течение недели. Я попытался выбрать статьи по всему спектру обработки речи, включая презентации, связанные с синтезом речи, автоматическим распознаванием речи, распознаванием речевых эмоций и обнаружением звуковых событий.

Документ № 1 - Управляемый нейронный синтез текста в речь с использованием интуитивных просодических функций

Одним из действительно привлекательных свойств раннего формантного и параметрического синтеза речи было то, что вы могли иметь точный контроль над определенными аспектами источника голоса для изменения просодии и качества голоса. К сожалению, естественность синтеза была далека от того, что есть сегодня, и никогда не существовало действительно простого метода контроля над супрасегментальными элементами. Также был документ от Amazon о контроле просодии в синтезе текста в речь (TTS), но я нашел этот документ от исследователей Apple особенно поразительным. Предлагаемая архитектура основана на системе Tacotron 2 для генерации спектрограммы Mel с использованием встраиваемых телефонов в качестве входных данных.

Предлагаемая архитектура включает кодировщик просодии, использующий интуитивно понятные функции, основанные на основной частоте, энергии и спектральном наклоне. Вектор признаков просодии объединяется с входом декодера Tacotron для обеспечения контроля просодии. Затем во время синтеза пользователь может выбрать значения от -1 до 1 для каждой из характеристик просодии, чтобы изменить синтезированную просодию на уровне предложения. Средние оценки естественности близко соответствуют базовой системе для всех, кроме низких крайностей продолжительности и энергетических настроек, и производят понятные для восприятия изменения в просодии. Будет интересно посмотреть, как будущие исследования будут посвящены обеспечению более тонкого просодического контроля.

Документ № 2 - Корпус MSP-Conversation

Исследовательская группа в лаборатории мультимодальной обработки сигналов (MSP) Техасского университета в Далласе в течение некоторого времени выполняла действительно важную работу в области распознавания речевых эмоций, разрабатывая постоянно увеличивающийся набор данных с краудсорсингом маркировки эмоций с помощью звука. данные из подкастов и радиопередач. Отсутствие крупных, достоверных и хорошо маркированных наборов данных в течение некоторого времени препятствовало совершенствованию в этой области. В этом документе объявляется о доступности корпуса MSP-Conversation, который использует те же исходные данные, что и набор данных MSP-Podcast, но вместо использования звука из отдельных динамиков он выбирает сегменты со звуком с обеих сторон двустороннего разговора. Набор данных использует ранее помеченные записи для поиска областей с разнообразными эмоциями и использует подход непрерывного аннотирования на основе джойстика, который затем корректируется с учетом времени реакции аннотатора. Я надеюсь, что этот набор поможет улучшить обработку разговорной речи, которой иногда уделялось меньше внимания исследователей, чем я ожидал.

Документ № 3 - Обучение адаптивному предметно-ориентированному представлению для распознавания речевых эмоций

Эта статья посвящена проблеме доменной или контекстной инвариантности при распознавании речевых эмоций. Авторы считают, что «домен» охватывает пол, возраст и другие факторы, и такие категории трудно обобщить для многих подходов к распознаванию эмоций. Архитектура модели здесь основана на многозадачном обучении, одна ветвь которого предназначена для классификации предметной области, а другая - для классификации эмоций. Между двумя ветвями модели существует путь, где представления из ветви предметной области используются в качестве входных данных для «уровня внимания с учетом предметной области», который используется для создания отдельного вложения внимания для ветви классификации эмоций. Хотя результаты показывают лишь незначительные улучшения по сравнению с наиболее производительной моделью сравнения, я подозреваю, что, учитывая больший набор данных, эта разница в точности может быть увеличена. Мне все еще трудно понять, почему исследователи продолжают использовать такие небольшие наборы данных, как IEMOCAP, для исследований распознавания звуковых эмоций, учитывая доступность больших, более подходящих наборов данных, таких как MSP-Podcast.

Документ № 4 - Улучшенное обучение шумных студентов автоматическому распознаванию речи

Google продолжает неустанно открывать новые горизонты в области автоматического распознавания речи (ASR). Так называемая структура обучения шумному студенту (NST) привлекла значительное внимание для задач распознавания изображений с частично контролируемым контролем. NST - это итеративная стратегия обучения, при которой модель учителя используется для маркировки немаркированных данных. Ярлыки с низкой достоверностью отбрасываются. Затем ученик проходит обучение по этикеткам с высокой степенью достоверности, выдаваемым учителем. В следующем «поколении» ученик становится учителем, и процесс повторяется итеративно. В каждом поколении порог достоверности, используемый для фильтрации меток, снижается. Авторы применяют эту технику здесь к проблеме ASR и используют технику расширения данных SpecAugment. Результаты демонстрируют улучшение частоты ошибок по словам как для чистых, так и для шумных записей корпуса LibriSpeech.

Документ № 5 - Конформер: преобразователь со сверткой для распознавания речи

Когда я увидел название статьи, в моей голове заиграл трек 1992 года «Informer» Сноу, и мне пришлось его добавить! Оказывается, это еще одна чрезвычайно интересная статья ASR от Google. В документе используется модельная архитектура, которая объединяет модули трансформатора и сверточной нейронной сети (CNN), чтобы объединить преимущества фиксации долгосрочных взаимодействий и локализованных представлений функций, соответственно. Помимо достижения впечатляющих результатов в корпусе LibriSpeech, эти оценки могут быть достигнуты с помощью модели, включающей гораздо меньше параметров, чем современные архитектуры моделей.

Документ № 6 - ContextNet: Улучшение сверточных нейронных сетей для автоматического распознавания речи с глобальным контекстом

Последний документ ASR от Google для хорошей меры! В статье основное внимание уделяется проблеме вычислительной сложности использования моделей трансформаторов для ASR с их множественными слоями самовнимания, которые становятся более дорогими по мере увеличения длительности входного звука. Как и в статье «Конформер», авторы здесь стремятся использовать более легкую в вычислительном отношении природу сверточных моделей. В этой статье авторы имеют дело с ограничением использования сверточными сетями только локального контекста путем включения так называемого подхода «сжатия и возбуждения», используемого в компьютерном зрении. Глобальный контекст определяется средним объединением представлений с течением времени, которое затем включается как тип остаточного соединения в верхней части всей сети. Другие приемы используются для уменьшения вычислительной сложности, включая использование разделимой по глубине свертки, а также использование функции активации «swish». Результаты экспериментов подтверждают гипотезу о том, что более крупный контекст снижает частоту появления ошибок в словах, но также и то, что предлагаемый подход является эффективным способом эффективного использования большого контекста с гораздо менее тяжелой вычислительной моделью по сравнению с базовой.

Документ № 7 - Должны ли мы жестко закодировать концепцию повторения или вместо этого изучить ее? Изучение архитектуры преобразователя для распознавания аудиовизуальной речи

Вы видите относительно немного статей по аудиовизуальному распознаванию речи, но эта статья от группы Sigmedia из Тринити-колледжа была определенно важной. В документе рассматривается сложная проблема эффективной синхронизации асинхронных модальностей аудио и видеовходов таким образом, чтобы эффективно использовать синергию между двумя режимами. Чтобы решить эту проблему, исследователи дополняют LSTM и трансформируют архитектуры, чтобы включить слой «выравнивания», который включает конкатенацию векторов контекста, полученных из отдельных слоев внимания, применяемых к аудио и видео представлениям.

Еще более сложной проблемой является объединение этих асинхронных сигналов в сценарий на основе потоковой передачи, который я надеюсь увидеть в будущей работе этой группы.

Документ № 8 - Обучение студентов-учителей с использованием нейронных меток для адаптации устройств в классификации акустических сцен

Обобщение эффектов каналов и различных устройств захвата звука по-прежнему является проблемой для обработки звука и речи.
В этой статье используется структура обучения студентов и преподавателей для классификации акустических сцен. Однако ванильный подход ученик-учитель не подходит оптимально, когда есть несовпадение устройств между исходными и целевыми данными.
Здесь авторы предлагают трехэтапную структуру с использованием встраивания нейронных меток. На первом этапе модель нейронной сети обучается с использованием горячих меток акустической сцены. Цель второго шага - обучить «вложения нейронных меток», которые, по сути, представляют собой словарь векторов, по одному для каждой акустической сцены. Эти веса обучаются путем минимизации потерь симметричной дивергенции Кульбака-Лейблера (KL) между выходными данными модели, обученной на первом этапе, и выходными данными проекции внедрений нейронных меток, примененных к исходным меткам. Третий шаг предназначен для адаптации обученной модели для лучшего обобщения на целевом устройстве. Модель здесь использует веса, полученные на первом этапе, и эти веса точно настраиваются на этапе обучения с использованием целевых входных данных и меток. Включение реляционного обучения учителя и ученика в сочетании с дивергенцией KL помогает лучше использовать небольшие объемы целевых данных.

Документ № 9 - Обобщение абстрактного речевого документа с использованием иерархической модели с многоэтапной оптимизацией разнообразия внимания

Хотя как экстрактивные, так и абстрактные методы реферирования доказали свою эффективность при создании более сжатых версий текстовых документов, по-прежнему очень сложно эффективно резюмировать разговорную речь. Одним из основных вкладов этой статьи является механизм внимания, применяемый к архитектуре модели иерархического кодера-декодера, который используется для смягчения так называемой «проблемы разнообразия», когда итоговые результаты содержат повторяющиеся слова и фразы. Представленные результаты демонстрируют впечатляющие улучшения по сравнению с традиционными методами с использованием корпуса разговорных собраний AMI, где модели предварительно обучаются с использованием набора данных CNN / Daily Mail.

Документ № 10 - На пути к изучению универсального несемантического представления речи

В окончательной отобранной статье Interspeech 2020 основное внимание уделяется проблеме репрезентативного обучения для задач обработки речи без ASR, таких как идентификация говорящего, распознавание речевых эмоций и голосовая медицинская диагностика. Настоящий документ основан на некоторых предыдущих, недавних частично контролируемых обучающих работах Google Research, в которых используется предположение, что представления фрагментов звука, близких по времени, должны иметь более высокую степень сходства по сравнению с фрагментами, находящимися дальше или из разных контекстов. Здесь также используется уменьшенная временная детализация, необходимая для выходных данных модели для проблем, не связанных с ASR. Авторы тренируют сеть с тройными потерями (которую они называют TRILL) и используют тонкую настройку с небольшими объемами целевых данных. Еще одним важным вкладом является предложение набора контрольных данных обработки речи без ASR (который они называют NOSS), который объединяет часто используемые наборы данных для идентификации говорящего, идентификации языка, распознавания эмоций и определения состояния здоровья. При точной настройке представления TRILL наблюдается существенный прирост производительности при решении большинства проблем обнаружения, включенных в NOSS.

Вперед!

Я скрещиваю пальцы, что следующая межречия в Брно снова будет с речевым сообществом, физически сходящимся на одном месте. Виртуальным конференциям не хватает опыта. В то же время мне интересно, что когда пандемия прекратится, характер научных конференций изменится непоправимо. Виртуальная конференция действительно намного более доступна для исследователей по всему миру, поэтому вполне возможно, что более крупные конференции, такие как Interspeech, станут, по крайней мере, полу-виртуальными встречами.

Сегодня в мире так много неуверенности и страданий, что я не могу избавиться от чувства огромной благодарности за то, что работаю в области, которая процветает не меньше, чем обработка речи и языка. Я думаю, что Шехзад Мевавалла из Amazon Alexa уловил это чувство в последней строке своего основного доклада: «Какое прекрасное время быть исследователем речи».

Статьи по Теме

Возможности Cogito

Если вы живете в США, Ирландии или Индии и заинтересованы в возможностях в Cogito, посетите нашу страницу вакансий! У нас есть дополнительная политика офиса, которая поощряет удаленную работу и сотрудничество!