Interspeech 2021 — «Возвращение увлекательных интерактивных речевых конференций»

Рельеф! Это ощущение, когда мы выходим из пандемии COVID-19, когда мы заново открываем для себя опыт, который нам раньше был дорог. Именно так выглядел Interspeech 2021. Было большим облегчением видеть большую группу участников, а также видеть такое участие в живых сессиях, когда постоянно задавалось больше вопросов, чем оставалось времени. Interspeech 2021 сильно отличается от чисто виртуальных речевых и языковых конференций, которые мы посетили за последние полтора года. Наконец, присутствие людей на мероприятии в сочетании с искусно выполненной гибридной платформой и, возможно, просто фактом, что это Interspeech, объединились, чтобы создать это общее ощущение чистого (глубокого выдоха) облегчения.

Качество основных докладов в этом году также было исключительно высоким. Профессор Паскаль Фунг сделал общий обзор современного состояния систем сквозного разговорного ИИ и рассказал о новых подходах к решению шести основных проблем: (1) отсутствие разнообразия в автоматизированных ответах, (2) отсутствие согласованности между последовательные ответы, (3) включение внешних баз знаний, (4) отсутствие контроля, (5) отсутствие универсальности и (6) способы обучения моделей с использованием методов с меньшим объемом данных. Она также обсудила ключевые этические проблемы, в том числе токсичные, неуместные и нарушающие конфиденциальность ответы автоматизированных систем. Мунья Эльхилали провел увлекательный доклад о том, как нейроны в мозге могут спектрально перенастраиваться, чтобы облегчить работу человека в задачах восприятия, в частности, в ухудшенных акустических условиях, а затем продолжил описание исследований машинного обучения, в которых используются преимущества этого нового научного подхода. знание. Тем не менее, это был программный доклад Томаша Миколова в последний день, который действительно запомнился нам. Миколов, который, вероятно, наиболее известен своей статьей NeurIPS 2013 года о word2vec, сделал обзор истории нейронных языковых моделей, а также несколько вдохновляющих мыслей о своих взглядах на будущие направления в области ИИ. Он явно скептически отнесся к заявлению о том, что общий ИИ может быть создан с использованием больших языковых моделей, и подчеркнул свою озабоченность по поводу стартапов в Силиконовой долине, делающих заявления, которые он считает ложными и вводящими в заблуждение.

Как это принято сейчас, Cogito Signal Processing and Machine Learning собрал и курировал набор из десяти статей, которые привлекли наше внимание во время конференции. Как обычно, документы относятся к разным подобластям речевых технологий, таким как автоматическое распознавание речи (ASR), диаризация говорящего и распознавание эмоций, а также включают фундаментальные области машинного обучения, такие как репрезентативное обучение и новые подходы для улучшения процесса разработки моделей.

Основные моменты бумаги

Доклад №1 — Автоматическое распознавание неупорядоченной речи: персонализированные модели, превосходящие человека по коротким фразам

Наш первый отчет подготовлен Google Research и включает обновленную информацию о согласованных усилиях Google, направленных на то, чтобы сделать голосовые интерфейсы более доступными для людей с самыми разными условиями речи. Их результаты показывают, что персонализированный, адаптированный к говорящему ASR работает намного лучше, чем современные системы, не зависящие от говорящего, и даже может работать лучше, чем человек, особенно для речи с очень серьезными нарушениями.

Доклад №2 — Пересмотр паритета транскрипции разговорной речи человека и машины

В этой статье исследовательской группы Мари Остендорф более подробно рассматриваются недавние выводы системы Microsoft ASR, которая обеспечивает точность (коэффициент ошибок в словах) на уровне человеческого паритета в наборах данных Switchboard и CallHome. Их результаты подчеркивают существенные мелкие различия в характере ошибок человеческого и машинного распознавания. У людей было обнаружено гораздо больше делеций по сравнению с ASR, и, в частности, люди, как правило, пропускали больше разговорных слов (например, обратные каналы или наполнители) по сравнению с системой ASR, даже несмотря на то, что люди производят много этих слов. Авторы утверждают, что в результате этой разницы в системах ASR должны быть сверхчеловеческие уровни частоты ошибок в словах, чтобы вести разговоры на человеческом уровне.

Документ № 3 — Однократное преобразование голоса с помощью независимого от динамика StarGAN

Следующая бумага, которую мы выбрали, находится в области голосового разговора. Здесь исследователи из Microsoft используют подход STARGAN на основе Generative Adversarial с несколькими модификациями по сравнению с исходным дизайном для преобразования голоса «многие ко многим» (т. Одна из ключевых областей новизны исследования включает в себя кондиционирование модели преобразования голоса с помощью встраивания динамиков d-vector, а не простое горячее кодирование. Результаты указывают на сравнимую естественность преобразованной речи с современной, но с более высоким перцептивным сходством с целевым говорящим.

Документ № 4 — Использование информации об атрибутах говорящего с использованием многозадачного обучения для проверки и диаризации говорящего

В этой статье исследователи из CSTR в Эдинбурге стремятся улучшить задачи проверки говорящего и диаризации путем явного обучения моделей для захвата атрибутов говорящего, которые, как известно в других научных областях, являются дискриминационными для говорящего, то есть пол, возраст, акцент, языковое содержание и нарушения, связанные с речью. Исследователи используют многозадачное обучение с отдельными задачами для каждого из атрибутов говорящего, что, по их гипотезе, будет стимулировать пространство для встраивания для изучения информации, действительно различающей говорящего. Их результаты указывают на улучшения в классификации говорящих и диаризации при использовании возраста и национальности в качестве вспомогательных задач распознавания.

Документ № 5 — Распознавание эмоций при внимательном рассмотрении речи говорящего

Исследователи из IRCAM стремятся улучшить распознавание речевых эмоций, соответствующим образом обрабатывая зависящий от говорящего характер аффективных выражений. Основная идея состоит в том, чтобы обусловить модель распознавания эмоций личностью конкретного говорящего. В их модели используются две параллельные ветви, одна для идентификации говорящего, а другая для распознавания эмоций, с механизмом внимания, используемым для связи информации между ними. Значительное повышение точности представлено для системы, зависящей от говорящего, однако текущий подход не распространяется на невидимых говорящих. Если авторы смогут эффективно решить эту проблему в будущей работе, это может стать многообещающим шагом вперед в области распознавания речевых эмоций.

Документ № 6 — Ускорение обучения с помощью входных данных переменной длины с помощью эффективных стратегий пакетной обработки

Основной мотивацией для посещения научных конференций является изучение новых методов, которые вы можете использовать для улучшения собственных исследований. Эта статья исследования Sony сделала именно это. Учебные модели с последовательностями переменной длины в качестве входных данных могут быть сложными как с точки зрения оптимизации точности, так и с точки зрения эффективности экспериментов. Было показано, что некоторые подходы, такие как использование наборов мини-пакетов или сортировка пакетов, ускоряют обучение, но часто могут приводить к ухудшению точности. Авторы описывают новый параметризованный пакетный подход, называемый полусортированным пакетным режимом, который может ускорить обучение и сохранить уровни точности.

Доклад №7 — Бесплатное обучение по персонализированному обнаружению голосовой активности

В этой статье исследователи из NTT сосредотачиваются на проблеме обнаружения речи целевого говорящего в записях, которые также содержат шум или речь других говорящих. Вместо того, чтобы использовать большой объем данных о регистрации для создания встраивания для конкретного говорящего, используемого для формирования модели обнаружения голосовой активности, здесь авторы вместо этого используют одно и то же высказывание как для создания встраивания говорящего, так и для сегментации речи. Этот подход может быть ненадежным во время вывода из-за большого несоответствия данным, используемым во время обучения. Авторы смягчают этот подход, искажая речевой ввод с помощью SpecAugment и исключения в части модели, встраивающей динамик.

Документ №8 — Дискриминативная языковая модель с поддержкой сущностей для виртуальных помощников

ASR часто может плохо работать при распознавании именованных сущностей. Это особенно проблематично для голосовых помощников, например, при обслуживании запроса на воспроизведение музыки определенным исполнителем. В этой статье исследователи из Apple и Университета Нотр-Дам представляют подход к переоценке решетки, основанный на представлениях входного графа знаний. Авторы показывают, как этот подход может поддерживать ожидаемые уровни точности в общих задачах голосового помощника и улучшать их для задач, связанных с именованными объектами.

Доклад №9 — Защита пола и идентичности с помощью распутанных речевых репрезентаций

Вопрос конфиденциальности и защиты личной информации сейчас является основной темой в речевых технологиях. В идеале в качестве входных данных следует использовать только информацию, относящуюся конкретно к нисходящей задаче (например, автоматическое распознавание речи). Эта статья, написанная исследователями из Университета королевы Марии, включает оценку архитектуры модели, основанной на структуре вариационного автоэнкодера, которая эффективно факторизует представления, связанные с личностью говорящего, его полом и содержанием речи. Авторы демонстрируют, что система может поддерживать пропуск информации о поле и личности из производимого встраивания речи, так что связанные с конфиденциальностью последующие задачи распознавания пола и говорящего обеспечивают точность на уровне случайности, в то время как основные задачи ASR выполняются хорошо.

Работа №10 — Неконтролируемое обучение распутанному речевому содержанию и репрезентации стиля

Наш окончательный выбор статьи также связан с репрезентативным обучением и распутыванием определенных факторов, но здесь применяется к реконструкции речи с использованием целевого стиля речи. Предлагаемая модель имеет отдельные ветви для кодирования языкового содержания и стиля речи, которые затем объединяются декодером, которому поручено реконструировать речь. Внедрение глобального стиля, вычисленное на основе небольшого количества целевой речи, может использоваться для четкого изменения стиля речи реконструированной речи — см. эта ссылка для аудиообразцов, связанных с этой статьей.

Продолжая путь назад

Итак, в этом году Interspeech определенно есть что переварить. Мы очень надеемся, что сообщество речевых технологий будет использовать толчок и реанимацию, которые обеспечила Interspeech 2021. Мы также надеемся, что дни неинтересных, полностью виртуальных конференций остались позади!

Возможности Cogito

Если вы находитесь в США, ЕС (Ирландии) или Индии и заинтересованы в возможностях в Cogito, посетите нашу страницу вакансий! У нас есть необязательная политика офиса, которая поощряет удаленную работу и совместную работу!

Благодарности

Эта статья была написана совместно членами группы обработки сигналов и машинного обучения Cogito после участия в конференции Interspeech 2021.