В этом году команда Sciforce побывала в Индии на одном из самых важных событий в сообществе обработки речи - конференции Interspeech. Это действительно научная конференция, где каждое выступление, постер или демонстрация сопровождается статьей, опубликованной в журнале ISCA. Как обычно, он охватывал большинство тем, связанных с речью, и даже больше: автоматическое распознавание речи (ASR) и генерация (TTS), преобразование голоса и шумоподавление, проверка говорящего и диаризация, системы разговорного диалога, языковое образование и темы, связанные со здравоохранением. .

С одного взгляда

● В этом году основным докладом было «Исследование речи для развивающихся рынков в многоязычном обществе». Вместе с несколькими сессиями по предоставлению речевых технологий для охвата десятков языков, на которых говорят в Индии, он показывает важный переход от сосредоточения внимания на нескольких хорошо изученных языках на развитом рынке к более широкому охвату.

● В соответствии с этим, в то время как ASR для языков, находящихся под угрозой исчезновения, все еще является предметом академических исследований и финансируется некоммерческими организациями, ASR для языков с ограниченными ресурсами и достаточным количеством носителей считается привлекательным для промышленности.

● Сквозные (основанные на внимании) модели постепенно становятся основным направлением распознавания речи. Более традиционные гибридные модели HMM + DNN (в основном, на основе инструментария Kaldi) остаются, тем не менее, популярными и обеспечивают современные результаты во многих задачах.

● Речевые технологии в образовании набирают обороты, а речевые технологии, связанные со здравоохранением, уже сформировали большую область.

● Хотя Interspeech - это конференция по обработке речи, есть много совпадений с другими областями машинного обучения, такими как обработка естественного языка (NLP) или обработка видео и изображений. Широко были представлены разговорный язык, мультимодальные системы и диалоговые агенты.

● Конференция охватила некоторые фундаментальные теоретические аспекты машинного обучения, которые в равной степени могут быть применены как к речи, так и к компьютерному зрению и другим областям.

● Все больше и больше исследователей делятся своим кодом, чтобы их результаты можно было проверить и воспроизвести.

● В итоге были представлены готовые open-source решения, например, HALEF, S4D.

Наш топ

На конференции мы сосредоточились на темах, связанных с применением речевых технологий в языковом образовании, и на более общих темах, таких как автоматическое распознавание речи, изучение представлений речевых сигналов и т. Д. Мы также посетили два предконференционных учебных курса - End-To-End Models для ASR и информационной теории глубокого обучения.

Урок 1: Сквозные модели для автоматического распознавания речи

Это руководство предоставлено Рохитом Прабхавалкаром и Тарой Сайнатх из Google Inc., США. Бесспорно, это было одно из самых ценных событий конференции, приносящее новые идеи и раскрывающее некоторые важные детали даже для достаточно опытных специалистов.

Обычные конвейеры включают в себя несколько отдельно обучаемых компонентов, таких как акустическая модель, модель произношения, языковая модель и повторная оценка второго прохода для ASR. Напротив, сквозные модели обычно являются последовательными моделями, которые напрямую выводят слова или графемы и значительно упрощают конвейер.

В учебном пособии было представлено несколько сквозных моделей ASR, начиная с первой модели под названием Connectionist Temporal Network (CTC), которая получает акустические данные на входе, передает их через кодировщик и выводит softmax, представляющий распределение по символам или (sub ) word и его развитие RNN-T, который включает в себя компонент языковой модели, обучаемый совместно.

Тем не менее, в большинстве современных сквозных решений используются модели, основанные на внимании. Механизм внимания обобщает функции кодировщика, необходимые для прогнозирования следующей метки. Большинство современных архитектур представляют собой усовершенствования Слушай, посещай и произноси (LAS), предложенные Чаном и Хоровски в 2015 году. Модель LAS состоит из кодировщика (похожего на акустическую модель), который имеет пирамидальную структуру для уменьшения временного шага. , модель внимания (выравнивания) и декодер - аналог произношения или языковой модели. LAS предлагает хорошие результаты без дополнительной языковой модели и может распознавать слова вне словарного запаса. Однако для уменьшения частоты ошибок по словам (WER) используются специальные методы, такие как неглубокое слияние, которое представляет собой интеграцию отдельно обученного LM и используется в качестве входных данных для декодера и в качестве дополнительных входных данных для конечного выходного слоя.

Урок 2: Теоретический подход к глубокому обучению

Одним из самых заметных событий Intespeech в этом году стал урок от Нафтали Тишби из Еврейского университета в Иерусалиме. Хотя автор впервые предложил этот подход более десяти лет назад, и он знаком сообществу, и этот учебник представлял собой телеконференцию по Skype, свободных мест на месте проведения не было.

Нафтали Тишби начал с обзора моделей глубокого обучения и теории информации. Он рассмотрел анализ на основе информационной плоскости, описал динамику обучения нейронных сетей и других моделей и, наконец, показал влияние нескольких уровней на процесс обучения.

Хотя это руководство носит теоретический характер и требует математических знаний для понимания, практик глубокого обучения может извлечь следующие полезные советы:

● Информационная плоскость - полезный инструмент для анализа поведения сложных DNN.

● Если модель может быть представлена ​​в виде цепи Маркова, она, вероятно, будет иметь предопределенную динамику обучения в информационной плоскости.

● Существует два этапа обучения: определение отношения входов и целей и сжатие представления.

Хотя его исследование охватывает очень небольшое подмножество современных архитектур нейронных сетей, теория Н. Тишби вызывает множество дискуссий в сообществе глубокого обучения.

Обработка речи и обучение

Перед изучающими иностранный язык стоит две основных задачи, связанных с речью: компьютерное обучение языку (CALL) и компьютерное обучение произношению (CAPT). Основное отличие состоит в том, что приложения CALL ориентированы на проверку словарного запаса, грамматики и семантики, а приложения CAPT - на оценку произношения.

Большинство решений CALL используют ASR на своей внутренней стороне. Однако обычная система ASR, обученная на родной речи, не подходит для этой задачи из-за акцента учащихся, языковых ошибок, большого количества неправильных слов или слов вне словарного запаса (OOV). Поэтому методы обработки естественного языка (NLP) и понимания естественного языка (NLU) должны применяться для определения значения высказывания учащегося и обнаружения ошибок. Большинство систем обучаются на корпусах неродной речи с фиксированным родным языком с использованием внутренних корпусов.

В большинстве статей CAPT модели ASR используются особым образом для принудительного выравнивания. Форма волны учащегося согласована по времени с текстовой подсказкой, а оценка достоверности для каждого телефона используется для оценки качества произношения этого телефона пользователем. Однако были представлены некоторые новаторские подходы, в которых, например, относительное расстояние между разными телефонами используется для оценки уровня владения языком студента и предполагает непрерывное обучение.

Бонус: ЗВОНИТЕ общее задание - ежегодное соревнование, основанное на реальном задании. Участники как из академических кругов, так и из промышленных кругов представили свои решения, которые были протестированы на открытом наборе данных, состоящем из двух частей: обработки речи и обработки текста. Они содержат подсказки на немецком языке и ответы студента на английском языке. Язык (словарный запас, грамматика) и значение ответов были независимо оценены экспертами-людьми. Задача является открытой, т.е. есть несколько способов сказать одно и то же, и лишь некоторые из них указаны в наборе данных.

ASR

В этом году А. Зейер и его коллеги представили новую модель ASR, показавшую лучшие результаты на корпусе LibriSpeech (1000 часов чистой английской речи) - заявленный WER составляет 3,82%. Это еще один пример сквозной модели, усовершенствованной LAS. В нем используются специальные блоки подслова с парным байтовым кодированием, которые в общей сложности имеют 10K целевых подслов.

Для меньшего по размеру корпуса английского языка - Switchboard (300 часов речи телефонного качества) лучший результат показывает модификация подхода Lattice-free MMI (Maximum Mutual Information), разработанная H. Hadian et. al. - 7,5% WER.

Несмотря на успех подходов к сквозным нейронным сетям, одним из их основных недостатков является то, что они нуждаются в огромных базах данных для их обучения. Для языков, находящихся под угрозой исчезновения, для которых мало носителей языка, создание такой базы данных практически невозможно. В этом году традиционно прошла сессия по ASR для таких языков. Наиболее популярным подходом к решению этой задачи является трансферное обучение, т.е. е. обучение модели на хорошо поддерживаемом языке (ах) и переподготовка на одном из языков с ограниченными ресурсами. Неконтролируемое обнаружение (под) словарных единиц - еще один широко используемый подход.

Немного другая задача - это ASR для языков с ограниченными ресурсами. В этом случае обычно доступен относительно небольшой набор данных (десятки часов). В этом году Microsoft организовала испытание ASR на индийских языках и даже поделилась набором данных, содержащим около 40 часов учебных материалов и 5 часов тестовых наборов данных на тамильском, телугу и гуджарати. Победителем стала система под названием BUT Jilebi, в которой используется ASR на основе Kaldi с целью LF-MMI, адаптация динамика с использованием линейной регрессии максимального правдоподобия пространства функций (fMMLR и увеличение данных с изменением скорости).

Другие темы

В этом году мы видели много презентаций по преобразованию голоса. Например, обученный на корпусе VCTK (40 часов родной английской речи) инструмент преобразования голоса вычисляет вложение говорящего или i-вектор нового целевого говорящего, используя только одно высказывание целевого говорящего. Результаты кажутся немного роботизированными, но голос цели узнаваем.

Еще один интересный подход к обработке речи на уровне слов - Speech2Vec. Он похож на Word2Vec, широко используемый в области обработки естественного языка, и позволяет изучать вложения фиксированной длины для речевых сегментов слова переменной длины. Под капотом Speech2Vec внимательно использует модель кодировщика-декодера.

Среди других тем - дискриминация манер синтеза речи, распознавание телефона без учителя и многое другое.

Заключение

С развитием Deep Learning конференция Interspeech, изначально предназначенная для сообщества специалистов по обработке речи и DSP, постепенно трансформируется в более широкую платформу для общения ученых, занимающихся машинным обучением, независимо от области их интересов. Он становится местом, где можно делиться общими идеями в разных областях машинного обучения и вдохновлять мультимодальные решения, в которых обработка речи происходит вместе (а иногда и в одном конвейере) с обработкой видео и естественного языка. Обмен идеями между полями, несомненно, ускоряет прогресс; и конференция Interspeech в этом году показала несколько примеров такого обмена.

Дополнительная литература для фанатов и сумасшедших ученых

Урок 1:

1. А. Грейвс, С. Фернандес, Ф. Гомес, Дж. Шмидхубер. Темпоральная классификация коннекционистов: маркировка данных несегментированной последовательности с помощью рекуррентных нейронных сетей. ICML 2006. [pdf]

2. А. Грейвс. Преобразование последовательности с помощью рекуррентных нейронных сетей. Семинар по обучению представителей, ICML 2012. [pdf]

3. В. Чан, Н. Джайтли, К. В. Ле, О. Виньялс. Слушайте, посещайте и пишите. 2015. [pdf]

4. Я. Чоровски, Д. Богданов, Д. Сердюк, К. Чо, Ю. Бенжио. Модели распознавания речи, основанные на внимании. 2015. [pdf]

5. Г. Пундак, Т. Сайнат, Р. Прабхавалкар, А. Каннан, Дин Чжао.

Глубокий контекст: сквозное контекстное распознавание речи. 2018. [pdf]

Урок 2:

6. Н. Тишби, Ф. Перейра, В. Биалек. Метод информационных узких мест. Специальная статья, в Протоколах 37-й ежегодной конференции Аллертона по коммуникации, управлению и вычислениям, стр. 368–377, (1999). [Pdf]

Обработка речи и образование:

7. Эванини, К., Тимпе-Лафлин, В., Цупрун, Э., Блад, И., Ли, Дж., Бруно, Дж., Раманараянан, В., Ланге, П., Сундерманн-Офт, Д. Игровые приложения для изучения разговорного языка для учащихся. Proc. Interspeech 2018, 548–549. [Pdf]

8. Нгуен, Х., Чен, Л., Прието, Р., Ван, К., Лю, Ю. Система Люлишуо для общего задания голосового вызова, 2018 г. Proc. Interspeech 2018, 2364–2368. [Pdf]

9. Ту, М., Грабек, А., Лисс, Дж., Бериша, В. Исследование роли L1 в автоматической оценке произношения речи L2. Proc. Interspeech 2018, 1636–1640 [pdf]

10. Кириакопулос К., Нилл К., Гейлс М. Подход с углубленным изучением английского языка к оценке произношения неродного языка с помощью телефонного расстояния Proc. Interspeech 2018, 1626–1630 [pdf]

ASR:

11. Zeyer, A., Irie, K., Schlüter, R., Ney, H. Улучшенное обучение моделей сквозного внимания для распознавания речи. Proc. Interspeech 2018, 7–11 [pdf]

12. Хадиан, Х., Самети, Х., Пови, Д., Худанпур, С. Сквозное распознавание речи с использованием бесконтактного MMI Proc. Interspeech 2018, 12–16 [pdf]

13. He, D., Lim, BP, Yang, X., Hasegawa-Johnson, M., Chen, D. Улучшенный ASR для языков с ограниченными ресурсами за счет многозадачного обучения с акустическими ориентирами. Proc. Interspeech 2018, 2618–2622 [pdf]

14. Чен В., Хасегава-Джонсон М., Чен Н.Ф. Определение темы и ключевых слов для речи с ограниченными ресурсами с помощью обучения с передачей языков. Proc. Interspeech 2018, 2047–2051 [pdf]

15. Херманн, Э., Голдуотер, С. Многоязычные узкие места для моделирования подслов в языках с нулевыми ресурсами. Proc. Interspeech 2018 [pdf]

16. Фен, С., Ли, Т. Использование спикеров и фонетического разнообразия несоответствующих языковых ресурсов для неконтролируемого моделирования подслов. Proc. Interspeech 2018, 2673–2677 [pdf]

17. Годар П., Бойто М.З., Ондел Л., Берард А., Ивон Ф., Вильявисенсио А., Безасье Л. Неконтролируемая сегментация слов из речи с вниманием. Proc. Interspeech 2018, 2678–2682 [pdf]

18. Гларнер, Т., Ханебринк, П., Эбберс, Дж., Хэб-Умбах, Р. Вариационный автоэнкодер с полной байесовской скрытой марковской моделью для обнаружения акустических устройств Proc. Interspeech 2018, 2688–2692 [pdf]

19. Хольценбергер, Н., Ду, М., Карадаи, Дж., Риад, Р., Дюпу, Э. Изучение вложения слов: неконтролируемые методы для представления фиксированного размера речевых сегментов переменной длины. Proc. Interspeech 2018, 2683–2687 [pdf]

20. Пулугундла, Б., Баскар, М.К., Кесираджу, С., Егорова, Э., Карафиат, М., Бургет, Л., Черноцки, Дж. Система НО для низкоресурсного индийского языка ASR. Proc. Interspeech 2018, 3182–3186 [pdf]

Другие темы:

21. Лю С., Чжун Дж., Сунь Л., Ву X., Лю X., Мэн Х. Преобразование голоса между произвольными динамиками на основе произнесения одного целевого динамика. Proc. Interspeech 2018, 496–500 [pdf]

22. Чанг, Ю., Гласс, Дж. Speech2Vec: структура от последовательности к последовательности для изучения встраивания слов из речи. Proc. Interspeech 2018, 811–815 [pdf]

23. Ли, Дж. Я., Чхон, С. Дж., Чой, Б. Дж., Ким, Н. С., Сонг, Э. Акустическое моделирование с использованием обученной вариационной рекуррентной нейронной сети для синтеза речи. Proc. Interspeech 2018, 917–921 [pdf]

24. Тджандра, А., Шакти, С., Накамура, С. Цепочка машинной речи с однократной адаптацией динамика. Proc. Interspeech 2018, 887–891 [pdf]

25. Ренкенс В., ван Хамме Х. Капсульные сети для понимания разговорного языка с низким уровнем ресурсов Proc. Interspeech 2018, 601–605 [pdf]

26. Прасад, Р., Егнанараяна, Б. Идентификация и классификация фрикативов в речи с использованием метода нулевого временного окна. Proc. Interspeech 2018, 187–191 [pdf]

27. Лю, Д., Чен, К., Ли, Х., Ли, Л. Полностью неконтролируемое распознавание фонем путем состязательного изучения взаимосвязей отображения из аудио-эмбеддингов. Proc. Interspeech 2018, 3748–3752.