Три новых проекта с открытым исходным кодом, которые многообещали по уменьшению зависимости от помеченных наборов данных для систем распознавания речи.

Недавно я начал выпускать образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 65 000 человек. TheSequence - это информационный бюллетень, ориентированный на ML (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Речь - краеугольный камень человеческого общения и одно из самых ярких проявлений нашего превосходящего интеллекта по сравнению с другими видами. Неудивительно, что речь стала одним из основных направлений недавней волны систем искусственного интеллекта (ИИ). Системы автоматического распознавания речи (ASR) были одной из самых активных областей исследований и разработок в области искусственного интеллекта, что привело к выдающимся прорывам, таким как цифровые помощники или решения для анализа видео. Однако создание систем ASR остается невероятно сложной задачей, в основном из-за больших объемов аннотированных речевых данных, необходимых для обучения этих моделей. Любая базовая система ASR сегодня требует часов ручного аннотирования аудиотранскрипций, которые часто трудно получить или просто недоступны для многих языков. Чтобы решить эти проблемы, сообщество ASR неуклонно склонялось к моделям, которые не так сильно зависят от больших помеченных наборов данных. Эта тенденция известна как обучение с самоконтролем и является одним из самых захватывающих достижений в современных системах глубокого обучения, особенно в области распознавания речи. Недавно Facebook представил три проекта, которые привносят методы самоконтроля в мир системы ASR.

Что такое самостоятельное обучение?

Самостоятельное обучение - одно из новейших модных словечек в области глубокого обучения, но оно становится все более актуальным при реализации современных архитектур нейронных сетей. В принципе, обучение с учителем - это автономное обучение с учителем. Это подход к обучению представлению, который устраняет предварительное условие, требующее от людей маркировать данные. Системы обучения с самоконтролем извлекают и используют естественно доступный релевантный контекст и встроенные метаданные в качестве контрольных сигналов.

Подожди! Основываясь на этом описании обучения с учителем, очень похоже на обучение без учителя, не так ли? Легенда искусственного интеллекта и главный ученый в области искусственного интеллекта Facebook Янн ЛеКун - один из пионеров самостоятельного обучения. В недавнем интервью он сказал:

«Теперь я называю это« обучением без учителя », потому что« обучение без учителя »является одновременно загруженным и сбивающим с толку термином».

Основное различие между двумя парадигмами заключается в том, что обучение без учителя в основном сосредоточено на изучении структуры данных ((кластеры, плотности, скрытое представление ...), в то время как обучение с самоконтролем пытается изучить динамику данных и их необработанный уровень. Например, новые методы самоконтроля были применены в таких областях, как раскрашивание изображений, в которых модель начинается исключительно с набора данных черно-белых изображений и пытается определить цвета.

В области систем ASR модели с самоконтролем пытаются смягчить требование построения больших наборов данных транскрибированного звука и, вместо этого, изучать новые представления из немаркированных наборов данных. Следуя тезису Яна ЛеКуна о самообучении, Facebook является одной из компаний, активно исследующих методы самоконтроля в системах ASR. Недавно гиганты социальных сетей представили три новых проекта в этой сфере:

1) Новый подход с самоконтролем, который превосходит традиционные системы ASR, которые полагаются исключительно на транскрибируемый звук.

2) Архитектура акустической модели, которая на порядок быстрее и эффективнее, чем предыдущий метод.

3) Более точный и универсальный подход к расшифровке имен собственных и других слов, которые не входят в лексикон систем ASR.

Wav2vec: Распознавание речи посредством самоконтроля

Wav2vec - это новый самостоятельный подход к автоматическому распознаванию речи. Модель пытается учиться на немаркированных речевых данных, не требуя транскрипции. В частности, Wav2vec обучает модели, заставляя их выбирать между исходными примерами речи и модифицированными версиями и повторяя эту задачу сотни раз в секунду звука.

Когда речь идет о речи, одна из самых больших проблем самоконтроля - это непрерывный характер данных, что делает невероятно трудным утверждение прогнозов. Wav2vec черпает вдохновение из популярного алгоритма НЛП word2vec и пытается изучить представление, обучая модель различать истинные данные и набор образцов-дистракторов.

Архитектурно Wav2vec состоит из двух многослойных сверточных нейронных сетей, уложенных друг на друга. Сеть кодировщика преобразует необработанный аудиовход в представление, где каждый вектор покрывает около 30 миллисекунд (мс) речи. Контекстная сеть использует эти векторы для генерации собственных представлений, которые охватывают больший промежуток времени до секунды. Затем модель использует эти представления для решения задачи прогнозирования с самоконтролем. В каждом 10-секундном аудиоклипе, на котором обучается модель, wav2vec генерирует ряд примеров дистракторов, которые заменяют 10 мс исходного звука фрагментами из других частей клипа. Затем модель должна определить, какая версия верна. И этот процесс выбора повторяется несколько раз для каждого 10-секундного обучающего клипа, по сути, опрашивая модель, чтобы различать точные звуки речи из образцов-отвлекающих факторов сотни раз в секунду.

При тестировании Wav2vec превзошел самые современные системы ASR, в том числе те, которые полагались на контролируемое обучение.

Распознавание речи без словаря

Одна из самых сложных задач в системах ASR - распознавание слов, не входящих в обучающий лексикон. В теории глубокого обучения эти слова обычно известны как слова вне словарного запаса (OOV) и не влияют на производительность моделей ASR. Используя методы самоконтроля, Facebook разработал декодер без словаря, который может эффективно обрабатывать миры OOV.

Реализация Facebook была основана на фреймворке wav2letter ++ для акустической модели и нашем наборе инструментов fairseq-py для языковой модели. Одним из нововведений подхода Facebook было сосредоточение внимания на символьных языковых моделях, которые, как оказалось, уменьшили количество ошибок при идентификации слов OOV.

На следующем рисунке показана традиционная модель ASR, которая не может реконструировать мир OOV: Сэм.

Та же самая модель, реализованная с использованием подхода без словаря, не имеет проблем с распознаванием слов OOV.

Более быстрые и легкие модели Seq2seq для систем ASR

Последовательность-последовательность (seq2seq) была в центре систем ASR с первых дней развития искусственного интеллекта. Хотя модели seq2seq могут достигать надежных уровней генерации, они обычно требуют больших объемов немаркированных данных, что часто оказывается непрактичным. Facebook недавно разработал модель кодировщика-декодера seq2seq для распознавания речи, которая требует на 75 процентов меньше параметров и на порядок более эффективна, чем предыдущие модели, но при этом обеспечивает лучшую производительность.

Самый большой вклад Facebook в модель seq2seq был основан на новой архитектуре, известной как блоки свертки с разделением по времени (TDS). Структура связности TDS частично отделяет агрегацию во времени от микширования по каналам, а также снижает параметры модели. В результате получается не только легкая, но и хорошо распараллеливаемая архитектура. Этот тип архитектуры seq2seq на порядок проще реализовать в мобильных устройствах, а также в аппаратном обеспечении для искусственного интеллекта.

Самостоятельное обучение обещает быть в центре следующего поколения систем ASR. Уменьшение зависимости от большого набора обучающих данных необходимо для продолжения быстрого прогресса в системах ASR. Facebook, безусловно, является одним из пионеров в области самоконтролируемых систем ASR, и его недавние публикации с открытым исходным кодом, вероятно, помогут в исследованиях в этой новой области пространства глубокого обучения.