Мысли и теория

Прорыв в распознавании речи, достигнутый с помощью трансформаторов

Давайте поговорим о ключевых достижениях в области распознавания речи благодаря трансформерам!

Уважаемый читатель. Давайте поговорим о том, что не может не волновать ваше воображение - давайте поговорим о ключевых достижениях, которые произошли в распознавании речи благодаря трансформерам.

В этой статье представлен обзор основных приемов, которые использовались при использовании архитектур на основе Transformer для распознавания речи. Каждая особенно интересная идея выделена жирным шрифтом. По пути будет много ссылок, которые позволят вам более подробно разобрать детали описанных приемов. В конце статьи вы найдете тесты моделей распознавания речи на основе Transformer.

Немного о распознавании речи

Разработчики используют распознавание речи для создания пользовательского опыта для различных продуктов. Интеллектуальные голосовые помощники AI, усовершенствование агентов центра обработки вызовов и разговорный голосовой AI - это лишь некоторые из наиболее распространенных применений. Аналитики, подобные Gartner, ожидают, что в ближайшее десятилетие использование преобразования речи в текст (STT) только возрастет.

Задача распознавания речи (Speech-to-Text, STT) на первый взгляд проста - преобразовать речевой (голосовой) сигнал в текстовые данные.

Есть много подходов к решению этой проблемы, и постоянно появляются новые прорывные техники. На сегодняшний день наиболее успешные подходы можно разделить на гибридные и сквозные решения.

В гибридных подходах к STT система распознавания состоит из нескольких компонентов, обычно модели акустического машинного обучения, модели машинного обучения произношения и языковой модели машинного обучения. Обучение отдельных компонентов выполняется независимо, и для вывода строится граф декодирования, в котором выполняется поиск наилучшей транскрипции.

Сквозные подходы - это система, все части которой обучаются вместе. Таким образом, такие системы часто возвращают текст немедленно. Сквозные подходы классифицируются в соответствии с критериями обучения и типом архитектуры.

Интересно, что трансформаторные решения не только нашли применение как в гибридных, так и в сквозных системах, но и оказались лучше многих других современных решений!

Немного о трансформаторах

Архитектура Transformer появилась в 2017 году в следующей статье [1] для решения проблемы машинного перевода. Есть отличные статьи, в которых подробно объясняется, как работает эта архитектура - посмотрите эти две (1. 2).

Позже в НЛП произошел бум, эволюционировали архитектуры трансформаторов, круг решаемых задач увеличивался, результаты решений на основе трансформаторов все больше уходили в пробел.

Приняв НЛП, преобразователи были внедрены в другие области машинного обучения: распознавание речи, синтез речи, компьютерное зрение и т. Д.

А теперь перейдем к делу.

Преобразователь речи

Первые упоминания о преобразователе в распознавании речи относятся к 2018 году, когда группа китайских ученых опубликовала исследовательскую статью [2].

Изменения в архитектуре минимальны - слои сверточных нейронных сетей (CNN) были добавлены перед отправкой функций на вход преобразователю. Это позволяет уменьшить разницу в размерах входной и выходной последовательностей (поскольку количество кадров в аудио значительно превышает количество токенов в тексте), что имеет положительный эффект. на обучении.

Несмотря на то, что результаты не были головокружительными, эта работа подтвердила, что трансформеры действительно могут успешно использоваться для распознавания речи!

Первые улучшения

В 2019 году было внесено несколько ключевых улучшений Speech-Transformer в разных направлениях:

  • Авторы этой статьи [3] предложили способ интеграции потерь CTC в Speech-Transformer. CTC loss уже давно используется в распознавании речи и имеет ряд преимуществ.

Во-первых, это позволяет нам учитывать соответствие определенных аудиокадров определенным символам транскрипции из-за допустимых выравниваний с использованием пустого символа.

Во-вторых, и это второе улучшение Speech-Transformer, оно упрощает интеграцию языковой модели в процесс обучения.

  • отказ от синусоидального позиционного кодирования (PE). Проблемы, связанные с длинными последовательностями, более остры при распознавании речи. Отклонение происходило по-разному - в некоторых статьях был произведен переход от абсолютного позиционного кодирования к относительному PE (как показано в следующей статье [4]), в других - путем замены PE на объединяющие уровни (как показано на рисунке). Следующая статья [5]), в третьем - замена позиционного кодирования обучаемыми сверточными слоями (как показано в следующей статье [6]). Значительно более поздние работы подтвердили превосходство других методов над сидузией ПЭ.
  • первые адаптации преобразователя для потокового распознавания. Авторы этих двух статей [5] и [7] сделали это в два этапа - сначала они адаптировали кодировщик так, чтобы он мог получать информацию в качестве входных данных в блоках и сохранять глобальный контекст, а затем использовал технику Monotonic Chunkwise Attention (MoChA) для онлайн-декодирования.
  • с использованием только блоков кодировщика трансформатора. Для некоторых систем (например, гибридных подходов или решений на основе датчиков) требуется, чтобы наша акустическая модель работала точно как кодировщик. Эта методика позволила использовать преобразователи в гибридных системах [8], а также в системах распознавания преобразователей [9].

В октябре 2019 года в исследовательской статье ([10]) было проведено обширное сравнение трансформаторов с другими подходами, основанными на фреймворке ESPNet, которое подтвердило качество распознавания моделей на основе трансформаторов. В 13 из 15 задач трансформаторная архитектура оказалась лучше рекуррентных систем.

Гибридное распознавание речи с помощью трансформаторов

В конце 2019 - начале 2020 года трансформеры достигли результатов SOTA в гибридном распознавании речи (см. [8]).

Как упоминалось ранее, одним из компонентов гибридного подхода является акустическая модель, в которой сегодня используются нейронные сети. Акустическая модель в этой статье состоит из нескольких слоев энкодера трансформатора. Схема одного из таких слоев показана на рисунке 3.

Из самого интересного в этой работе я хотел бы выделить, что авторы снова демонстрируют преимущество обучаемых сверточных (а именно VGG-подобных) встраиваний по сравнению с синусоидальным PE. . Они также используют повторяющиеся потери для улучшения сходимости при обучении глубоких преобразователей. Тема глубоких трансформаторов будет обсуждаться дальше.

Трансформаторный преобразователь

Точнее, два Transformer Transducer - один от Facebook [9] и один от Google [11] появятся в конце 2019-го и первой половине 2020-го. Формально в работе Facebook он называется Transformer- Преобразователь (через дефис). Но суть обеих работ одинакова - интеграция преобразователя в архитектуру RNN-Transducer.

Интеграция происходит не для всего преобразователя, а для только кодировщика как аудиокодера в структуре RNN-T. В этой статье [11] сеть предсказателей также основана на преобразователе, но с меньшим количеством уровней - в процессе логического вывода часто необходимо вызывать этот компонент, нет необходимости в более сложной архитектуре.

Потеря RNN-T, в отличие от потери CTC, позволяет учитывать не только вероятности на основе входной последовательности, но и на основе прогнозируемых меток. Кроме того, одним из преимуществ архитектуры Transformer Transducer является то, что этот подход намного проще адаптировать для потокового распознавания, поскольку используется только кодирующая часть преобразователя.

Летом 2020 года была опубликована еще одна статья [12], названная Conv-Transformer Transducer, в которой аудиокодер состоит из трех блоков, каждый из которых содержит сверточные слои, а затем слои-преобразователи. А осенью этого года в [13] (который является продолжением [11]) авторы предложили методику переменных слоев контекста, которая позволяет обучать модель, способную используя переменный размер будущего контекста, обеспечивая компромисс между задержкой и качеством на этапе вывода.

Локальный и глобальный контекст

Одной из сильных сторон архитектур на основе трансформаторов является их высокая эффективность с учетом глобального контекста. В аудиосигнале локальные соединения играют большую роль, чем глобальные. Летом 2020 года было опубликовано несколько работ, привлекающих внимание к этим аспектам и в очередной раз выводящих трансформаторную модель в тупик:

  • Авторы [14] предложили изменить архитектуру блока трансформатора, добавив модуль свертки после блока Multi-Head Attention (MHA). Свертки лучше учитывают локальную информацию, в то время как модель преобразователя хороша для извлечения глобальной информации. Получившуюся модель авторы назвали Conformer. Также, вдохновленные Macaron-Net, авторы использовали полушаговую сеть с прямой связью.
  • в статье [15] представлена ​​техника подавления слабого внимания; было предложено использовать рассеянное внимание, динамически обнуляя веса меньше определенного порога, чтобы мы сделали так, чтобы модель меньше рассеивала внимание во всем контексте и больше фокусировалась на значимых кадрах.

Трансформаторы потокового вещания

Как отмечалось выше, подход преобразователя позволяет использовать систему для потокового распознавания речи, т.е. когда звук поступает в систему в реальном времени, обработка происходит немедленно, и система возвращает ответы, как только она будет готова. Распознавание потоковой передачи является необходимым условием для голосовых диалоговых задач ИИ.

Однако для потоковой передачи в системе необходимо, чтобы сама модель преобразователя могла обрабатывать звук последовательно. В исходном трансформаторе механизм внимания смотрит на всю входную последовательность.

В решениях на основе трансформаторов используются следующие методы обработки потоковых данных при распознавании речи:

  • Ограниченное по времени самовнимание используется, например, в следующей статье [11]. Каждый уровень преобразователя имеет ограниченный перспективный контекст. Недостатком этого подхода является увеличение задержки по мере увеличения количества уровней, поскольку общий контекст взгляда в будущее увеличивается.
  • обработка блоков - идею можно увидеть в [5], [16] и [17]. Идея состоит в том, чтобы подавать сегменты / блоки / куски в качестве входа в трансформатор. Недостатком этого метода является то, что контекст ограничен сегментом. Чтобы не потерять глобальный контекст, его можно передать как отдельное встраивание, как показано в [5], или использовать архитектуры с повторяющимися соединениями, в которых вложения из предыдущих сегментов переносятся в текущие, как показано в [16], или используют информацию из всех предыдущих обработанных сегментов, хранящихся в банке памяти. Этот подход называется расширенной памятью и предлагается в [17].

Эмформер

В следующей исследовательской статье [18] представлена ​​модель, подходящая для потокового распознавания, как в гибридной установке, так и в системе преобразователя.

Эмформер продолжает развивать идею, представленную в [17]. Как и его предшественник, Emformer использует расширенную память. Выполняются вычислительные оптимизации, кеширование вычислений, используется банк памяти не из текущего слоя, а из предыдущего слоя преобразователя, и добавляется распараллеливание GPU.

В результате удалось добиться значительного ускорения обучения системы и сокращения времени вывода. Кроме того, модель лучше сходится в результате меньшего количества бесполезных вычислений.

Обучение воспроизведению речи без учителя

Еще одна область, в которой преобразователи нашли успешное применение, - это построение высокоуровневых аудиопредставлений на основе немаркированных данных, на которых даже простая модель даст хорошие результаты.

Здесь хотелось бы отметить ряд работ - Mockinjay [19], Speech-XLNet [20], Audio ALBERT [21], TERA [22] и особенно wav2vec 2.0 [23] ].

Одна из идей построения такого представления - испортить спектрограмму (замаскировав ее по оси времени, как в Mockingjay и Audio ALBERT, либо по осям времени и частоты, как в TERA, либо перетасовать некоторые кадры, как в Speech -XLNet) и обучите модель ее восстановлению. Тогда скрытое представление такой модели можно использовать как представление высокого уровня. Трансформатор здесь выступает в роли модели, а точнее его кодировщика плюс дополнительные модули до и после.

Полученные представления можно использовать для последующих задач. Более того, веса модели могут быть либо заморожены, либо оставлены для точной настройки для последующей задачи.

Другая идея реализована в wav2vec 2.0. Это продолжение vq-wav2vec [24].

Во-первых, скрытые представления строятся из аудиосигнала с использованием слоев сверточной нейронной сети. Скрытые представления поступают на вход преобразователя, а также используются для построения дискретных представлений. Некоторые рамки на входе в трансформатор замаскированы. Модель трансформатора обучена предсказывать дискретные гранты с помощью контрастных потерь. В отличие от vq-wav2vec, изучение дискретных и скрытых представлений теперь происходит вместе (сквозное).

В [25] авторы использовали идею предварительного обучения wav2vec в сочетании с архитектурой Conformer. Авторы использовали данные LibriLight для предварительного обучения и получили SOTA в корпусе LibriSpeech на момент написания этой статьи.

Крупномасштабные настройки

Большинство научных публикаций рассматривают результаты моделей, обученных на небольших, примерно 1000-часовых кейсах, таких как LibriSpeech.

Тем не менее, есть исследования, такие как [26] и [27], которые показывают, что модели на основе трансформаторов показывают преимущество даже на больших объемах данных.

Заключение

В этой статье были рассмотрены методы, которые встречаются при использовании моделей на основе преобразователя в распознавании речи.

Конечно, здесь отражены не все статьи, связанные с преобразователями в области распознавания речи (количество работ, связанных с преобразователями в STT, растет в геометрической прогрессии!), Но я постарался собрать для вас самые интересные идеи.

И напоследок - графики WER на примере моделей на основе LibriSpeech Transformer:

Ссылки

  1. A.Vaswani et al., 2017, Внимание - все, что вам нужно, https://arxiv.org/abs/1706.03762
  2. L.Dong et al., 2018 Речевой преобразователь: модель от последовательности к последовательности без повторения для распознавания речи, https://ieeexplore.ieee.org/document/8462506
  3. С.Карита и др., 2019, Улучшение сквозного распознавания речи на основе преобразователя с помощью временной классификации коннекционистов и интеграции языковой модели, https://pdfs.semanticscholar.org/ffe1/416bcfde82f567dd280975bebcfeb4892298.pdf
  4. П. Чжоу и др., 2019, Улучшение обобщения преобразователя для распознавания речи с параллельной выборкой по расписанию и относительным позиционным встраиванием, https://arxiv.org/abs/1911.00203
  5. Э. Цуноо и др., 2019, Трансформатор ASR с контекстной обработкой блоков, https://arxiv.org/abs/1910.07204
  6. А. Мохамед и др., 2019, Трансформаторы со сверточным контекстом для ASR, https://arxiv.org/abs/1904.11660
  7. E.Tsunoo et al., 2019, На пути к автоматическому распознаванию речи сквозным преобразователем онлайн, https://arxiv.org/abs/1910.11871
  8. Y.Wang et al., 2019, Трансформаторное акустическое моделирование для гибридного распознавания речи, https://arxiv.org/abs/1910.09799
  9. C.Yeh et al., 2019, Трансформатор-преобразователь: сквозное распознавание речи с самовниманием, https://arxiv.org/abs/1910.12977
  10. С.Карита и др., 2019, Сравнительное исследование трансформатора и RNN в речевых приложениях, https://arxiv.org/abs/1909.06317
  11. Q.Zhang et al., 2020, Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss, https://arxiv.org/abs/2002.02562
  12. W.Huang et al., 2020, Преобразователь Conv-Transducer: низкая задержка, низкая частота кадров, потоковое сквозное распознавание речи, https://arxiv.org/abs/2008.05750
  13. A.Tripathi et al., 2020, Transformer Transducer: One Model Unifying Streaming and Non-Stream Speech Recognition, https://arxiv.org/abs/2010.03192
  14. А.Гулати и др., 2020, Конформер: преобразователь со свёрткой для распознавания речи, https://arxiv.org/abs/2005.08100
  15. Ю. Ши и др., 2020, Подавление слабого внимания для распознавания речи на основе преобразователя, https://arxiv.org/abs/2005.09137
  16. Z.Tian et al., 2020, Синхронные преобразователи для сквозного распознавания речи, https://arxiv.org/abs/1912.02958
  17. C.Wu et al., 2020, Потоковое воспроизведение акустических моделей на основе трансформаторов с использованием самовнимания и расширенной памяти, https://arxiv.org/abs/2005.08042
  18. Ю. Ши и др., 2020, Emformer: Акустическая модель на основе эффективного преобразователя памяти для распознавания потоковой речи с низкой задержкой, https://arxiv.org/abs/2010.10759v3
  19. A.T.Liu et al., 2019, Сойка-пересмешница: обучение неконтролируемому представлению речи с помощью кодировщиков с глубоким двунаправленным преобразователем, https://arxiv.org/abs/1910.12638
  20. X.Song et al., 2020, Speech-XLNet: предварительное обучение акустической модели без учителя для сетей с самовниманием, https://arxiv.org/abs/1910.10387
  21. P.Chi et al., 2020, Audio ALBERT: Lite BERT для самостоятельного обучения звуковому представлению, https://arxiv.org/abs/2005.08575
  22. A.T.Liu et al., 2020, TERA: Самоконтролируемое обучение представлению преобразователя кодировщика для речи, https://arxiv.org/abs/2007.06028
  23. А.Баевски и др., 2020, wav2vec 2.0: структура для самостоятельного изучения речевых репрезентаций, https://arxiv.org/abs/2006.11477
  24. A.Baevski et al., 2020 vq-wav2vec: Самостоятельное обучение дискретных речевых репрезентаций, https://arxiv.org/abs/1910.05453
  25. Я. Чжан и др., 2020, Расширяя границы полу-контролируемого обучения для автоматического распознавания речи, https://arxiv.org/abs/2010.10504
  26. Л.Лу и др., 2020, Изучение преобразователей для крупномасштабного распознавания речи, https://arxiv.org/abs/2005.09684
  27. Y.Wang et al., 2020, Трансформатор в действии: сравнительное исследование акустических моделей на основе трансформатора для крупномасштабных приложений распознавания речи, https://arxiv.org/abs/2010.14665