Извлечение признаков — один из самых важных шагов в разработке любой модели машинного обучения или глубокого обучения. Машинное обучение (ML) обеспечивает плотное представление контента путем извлечения характеристик из необработанных данных. Это заставляет нас изучать основную информацию без шума, чтобы делать выводы (если это сделано правильно).

Обработка естественного языка (NLP) имеет много определений и терминов, но если говорить вкратце; это раздел компьютерных наук, целью которого является развитие способности компьютеров и машин понимать человеческий язык в его письменной и устной формах. Одним из старейших и наиболее важных приложений NLP является автоматическое распознавание речи (ASR), которое преобразует любую устную форму в соответствующий текст.

В то время как эта задача довольно проста для большинства людей, для машины выполнить эту задачу очень сложно; и одна из главных причин этого — сложный характер речи; поэтому извлечение признаков из речи — задача, которая долгое время не давала покоя исследователям и первооткрывателям. Эта статья призвана объяснить один из самых известных методов извлечения из речи; известные как кепстральные коэффициенты Mel-частоты (MFCC).

Прежде всего, при распознавании речи цель состоит в том, чтобы использовать акустическую и лингвистическую модели для определения подходящего порядка слов, соответствующего входному звуку.

Наше наблюдение X представлено серией векторов акустических признаков (x1, x2, x3,…) для построения акустической модели. В этой статье рассказывается, как звуковые характеристики извлекаются из человеческой речи.

Требования

Давайте сначала обсудим некоторые спецификации для извлечения признаков в ASR. Мы используем скользящее окно шириной 25 мс для извлечения аудиофункций из аудиосегмента, как показано на рисунке ниже:

Выбор 25 мс связан с тем, что особенности в этом кадре должны оставаться в основном стационарными, поскольку ширина 25 мс достаточно широка, чтобы мы могли получить адекватные данные. Если мы говорим 3 слова в секунду с 4 телефонами, и каждый телефон будет разделен на 3 этапа, то будет 36 состояний в секунду или 28 мс на состояние. Таким образом, таймфрейм 25 мс является примерно правильным.

В речи контекст имеет решающее значение. Артикуляция до и после телефона влияет на произношение слов. Мы можем уловить динамику между кадрами, чтобы уловить правильный контекст, потому что каждое скользящее окно отстоят друг от друга примерно на 10 миллисекунд; это означает, что между скользящими кадрами существует перекрытие 15 мс.

Подача каждого человека уникальна. Однако это не имеет большого значения с точки зрения понимания того, что они сказали. Шаг и F0 связаны. Он не должен использоваться для распознавания голоса и должен быть удален. Форманты F1, F2, F3 более важны. Для тех, у кого есть проблемы с соблюдением этих условий, мы предлагаем вам прочитать эту статью.

Кроме того, мы ожидаем, что на восстановленные черты не повлияют личность говорящего или окружающий шум. Кроме того, мы хотим, чтобы извлеченные характеристики были независимы друг от друга, как и в любой задаче машинного обучения, и надеемся, что эти характеристики будут максимально компактными. С автономными характеристиками разработка и обучение моделей упрощаются.

В наиболее распространенной технике извлечения признаков (MFCC) есть 39 признаков. Мы должны понимать информацию аудио, потому что функций не так много. Амплитуда частот зависит от 12 факторов. Благодаря этому у нас достаточно частотных каналов для оценки звука.

Ниже показан процесс извлечения функций MFCC.

Ключевыми задачами MFCC являются: Снятие возбуждения голосовых связок (F0) — информации о высоте тона. Сделайте извлеченные функции независимыми, настройте их на то, как люди воспринимают громкость и частоту звука, и зафиксируйте динамику телефонов (контекст).

Пошаговое объяснение кепстральных коэффициентов Mel-частоты (MFCC)

АЦП

Аналого-цифровое преобразование оцифровывает содержимое путем дискретизации аудиосегментов и преобразования аналогового сигнала в дискретное пространство. Чаще всего используются частоты дискретизации 8 или 16 кГц.

Предварительное выделение

Количество энергии на высоких частотах увеличивается за счет предыскажения. Гласные и другие звонкие сегменты обладают большей энергией на более низких частотах, чем на более высоких частотах. Акустическая модель имеет лучший доступ к информации в высших формантах по мере увеличения высокочастотной энергии. Это повышает точность обнаружения телефона. Когда мы не слышим эти высокочастотные шумы, у нас начинаются проблемы со слухом. Шум также имеет высокую частоту. Предварительное выделение — это метод, используемый в технике для снижения чувствительности системы к шуму, который позже добавляется в процесс.

Предыскажение использует фильтр для усиления высоких частот.

Оконный режим

Работа с окнами включает в себя нарезку звуковой волны на скользящие кадры, как показано на рисунке ниже:

Однако мы не можем просто отрезать его по краю кадра. При резком уменьшении амплитуды будет много шума, который будет слышен на высоких частотах. Амплитуда должна постепенно уменьшаться к границе кадра, чтобы нарезать звук.

Несколько альтернатив для обрезки сигнала — окно Хэмминга и окно Хэннинга. В окне Хэмминга и Ханнинга амплитуда падает ближе к краю.

По сравнению с прямоугольным окном нарезанный кадр с Хэммингом и Ханнингом лучше сохраняет исходную информацию о частоте с меньшим количеством шума.

Дискретное преобразование Фурье (ДПФ)

Затем мы применяем ДПФ для извлечения информации в частотной области.

Банк фильтров Мел

Люди слышат громкость по-разному в зависимости от частоты. Кроме того, по мере увеличения частоты воспринимаемое частотное разрешение снижается. Например, люди менее чувствительны к более высоким частотам. Шкала Мел переводит зарегистрированную частоту в ту, которую испытывают люди.

Треугольные полосовые фильтры используются при извлечении признаков для преобразования информации о частоте в форму, очень похожую на человеческое восприятие.

Начнем с возведения в квадрат выхода ДПФ. Мы называем это спектром мощности DFT, поскольку он отображает мощность речи на каждой частоте (x[k]2). Мы преобразуем его в спектр мощности по шкале Мел, используя эти треугольные банки фильтров по шкале Мел. Выходной сигнал каждого слота спектра мощности по шкале Мела соответствует энергии, которую он покрывает в нескольких частотных диапазонах.

Как мы упоминали ранее, поскольку человеческий слух менее чувствителен к высоким частотам, полоса пропускания Trainangular шире на этих частотах. В частности, он линейно разнесен до 1000 Гц, а затем поворачивается логарифмически.

Все эти инициативы направлены на моделирование того, как базилярная мембрана нашего уха улавливает звуковые вибрации.

Журнал

Спектр мощности является выходным сигналом набора фильтров Mel. По сравнению с незначительными изменениями при низких уровнях энергии люди менее чувствительны к небольшим изменениям энергии при высоких уровнях энергии. Следовательно, оно на самом деле логарифмическое. Таким образом, следующим шагом будет вывод журнала из набора фильтров Mel. Это также уменьшает акустические варианты, не значимые для распознавания речи.

Cepstrum — IDFT

Первые четыре буквы слова «спектр» перевернуты в кепстре. Далее необходимо вычислить Cepstral, который разделяет источник голосовой щели и фильтр. Спектр показан на диаграмме (а), а величина показана по оси ординат. На диаграмме (b) используется логарифм магнитуды. Если присмотреться, то волна варьируется между 1000 и 2000 примерно в 8 раз. В действительности он варьируется примерно на 8% на каждые 1000 единиц. Исходная вибрация голосовых связок составляет около 125 Гц.

Как видно, логарифмический спектр (показан на первой диаграмме ниже) состоит из информации о высоте тона и телефоне (третья диаграмма). Форманты, разделяющие телефоны, обозначены пиками на втором рисунке. Но как мы можем отличить их друг от друга?

Напомним, что периоды во временной или частотной области инвертируются после преобразования.

Помните, что частотная область включает короткие интервалы для информации о высоте тона. Чтобы отличить форманты от информации о высоте тона, мы можем использовать обратное преобразование Фурье. Информация о высоте тона появится в центре и справа, как показано ниже. Пик в центре действительно соответствует F0, а крайний левый будет включать информацию о телефонах.

Следовательно, мы можем игнорировать другие коэффициенты и просто использовать крайние левые для распознавания голоса. Фактически, MFCC использует только первые 12 кепстральных значений. Эти 12 коэффициентов имеют еще одну важную характеристику. Логарифмический спектр мощности симметричен и действителен. Дискретное косинусное преобразование — это то, с чем сравнимо его обратное ДПФ (ДКП).

Динамические функции (дельта)

MFCC имеет 39 функций. Дорабатываем 12 и какие остальные. 13-й параметр — это энергия в каждом кадре. Это помогает нам идентифицировать телефоны.

Контекст и динамическая информация имеют решающее значение для произношения. Переходы в форманте можно использовать для идентификации артикуляций, таких как стоп-закрытие и освобождение. Контекст для телефона предоставляется путем описания изменений функций с течением времени. Приведенные ниже дельта-значения d(t) рассчитываются с использованием еще 13 значений. Он оценивает, как изменились характеристики между предыдущим и последующими кадрами. Это производная первого порядка признаков.

Последние 13 параметров представляют собой динамические изменения d(t) между предыдущим и последующими кадрами. Он выполняет роль производной второго порядка от c (t).

Следовательно, 12 кепстровых коэффициентов и энергетический член составляют 39 параметров признаков MFCC. Затем у нас есть еще 2 набора, которые соответствуют значениям дельты и двойной дельты.

Кепстральное среднее и нормализация дисперсии

Затем мы можем провести нормализацию признаков. Мы разделили характеристики по их дисперсии после нормализации их среднего значения. При значении признака j по всем кадрам одного высказывания вычисляются среднее значение и дисперсия. Это позволяет нам изменять значения для учета вариаций в каждой записи.

Однако это не может быть точным, если аудиосэмпл короткий. Вместо этого, в зависимости от говорящих или, возможно, от полного набора обучающих данных, мы могли бы вычислить средние значения и значения дисперсии. Предварительный акцент будет эффективно снят с помощью такой нормализации признаков. Таким образом мы извлекаем характеристики MFCC. И последнее, но не менее важное: MFCC не очень шумоустойчив.