Этот пост о нашей статье DeepFry, которая была принята к публикации на Interspeech 2022. Она была написана с помощью Йосси Кешет, Элеонора Чодрофф, Дженнифер С. Коул, Талия Бен Саймон, Яэль Сигал, Джереми Стеффман

Что общего у Бритни Спирс, Зои Дешанель, Скарлетт Йоханссон и Ким Кардашьян? Все они используют тональное качество фрай вокала, тип скрипучего звука, который возникает, когда голос опускается до самого нижнего регистра. И мужчины тоже этим пользуются. В последнее время об этом много упоминалось: от того, как его используют знаменитости, в частности, как Ким Кардашьян и рэперы используют его, чтобы казаться более сексуальным, и как это стало языковой причудой молодых женщин. Обеспокоенная бабушка даже написала письмо в Chicago Tribune, жалуясь на то, что ее 8-летняя внучка теперь подражает голосу своей учительницы, и мало того, что пострадал ее прекрасный певческий голос, меня огорчает, что ее сильная, четкая речь голос может быть навсегда потерян. Судя по всему, этого не будет.

В этом постемы расскажем, что такое вокальная малька, какие проблемы она создает для различных алгоритмов обработки сигналов и машинного обучения, а также представим улучшенный алгоритм глубокого обучения для ее идентификации. эм>

Характеристики: Низкий и неравномерный шаг

Воздух, выходящий из легких, давит на голосовые связки, открывая их, начиная с нижней части голосовых складок и двигаясь вверх. По мере того, как голосовые связки расходятся по верхнему краю, нижняя часть смыкается, подобно тому, как эластичная лента возвращается в исходное положение после растяжения. При продолжающемся восходящем давлении воздуха голосовые связки снова принудительно открываются внизу и снова закрываются по повторяющейся схеме. Частота этого вибрационного паттерна (количество циклов открытия-закрытия в секунду, также называемая основной частотой или f0) определяет воспринимаемую высоту голоса. Во время голосовых сокращений колебания неравномерны, так как голосовые связки при смыкании несколько расслабляются, а поток воздуха из легких уменьшается.

Это приводит к более медленным и нерегулярным вибрациям, которые мы слышим как скрипучий голос с более низким тоном.

Нарушение давно используемых алгоритмов

Эта нерегулярная периодичность может привести к тому, что системы автоматического распознавания речи («речь в текст») и проверки говорящего будут работать неэффективно и, как правило, снижать эффективность распознавания [1].

На это есть две основные причины. Во-первых, обучающие данные не содержат достаточного количества голосовых сегментов мальков, если таковые вообще имеются. Во-вторых, типичная обработка сигнала, подходящая для стандартной обработки речи, неадекватна для обнаружения вокальных мальков. Причина в следующем. Обработка речи выполняется в окнах, где предполагается, что статистика сигнала внутри окна постоянна (это называется стационарность). Чтобы иметь хорошее надежное представление сигнала, окна обработки должны включать несколько периодов основного тона. Однако, поскольку период основного тона у вокального малька очень низок, стандартной продолжительности окна в 20–25 мс недостаточно.

Ранние попытки решить проблему идентификации голосовых сегментов мальков были основаны на специальных методах обработки сигналов [2–8]. В недавних методах использовались глубокие нейронные сети, но они были разработаны для уникальных и небольших наборов данных и использовали фиксированный метод предварительной обработки на входе (MFCC, STFT и т. д.).

Новый подход — DeepFry

Руководствуясь этими решениями, в нашей статье DeepFry мы решаем эту проблему, вводя в нашу модель несколько инновационных компонентов.

Работа с необработанным сигналом

Вокальные партии могут охватывать разную продолжительность. Например, оно может быть очень коротким или длиннее полсекунды. Чтобы захватить звуки, определенные в течение более коротких и длинных периодов, включая вокальные партии, и решить проблему, связанную с использованием методов предварительной обработки, входом в сеть является необработанная акустическая волна, разделенная на кадры различной продолжительности без каких-либо методов предварительной обработки. Это обходит принцип «стационарности» и работу с окнами, требуемые MFCC и STFT, что обеспечивает большую гибкость для выявления областей скрипа.

Большое рецептивное поле

Как упоминалось выше, вокальные мальки могут иметь разную продолжительность. Мы хотели убедиться, что наше кодирующее устройство будет иметь достаточно большое рецептивное поле, чтобы зафиксировать различную периодичность вокальных мальков, чтобы изучить хорошее скрытое представление сигнала. Стандартный подход для достижения такого представления заключается в использовании кодировщика, который в нашем случае реализован в виде полностью сверточной нейронной сети, состоящей из больших фильтров (ядер) по сравнению со стандартными, используемыми в области речи.

Многозадачная структура обучения

Мы обучили нашу модель предсказывать одновременно 3 задачи: вокальный фрай (скрип), голосообразование и высоту тона. Вспомогательными задачами являются:

  1. Озвучивание. В то время как гласные и некоторые согласные, такие как носовые «м» и «н», вызывают вибрацию голосовых связок, другие согласные, например «ptk», этого не делают. Вокальные партии могут присутствовать только в озвученных кадрах при обучении сети, поэтому мы обусловливаем прогноз вокальных фрагментов предсказанием вокализации.
  2. Высота тона — из-за корреляции между задачами определения голосовых ладов и высоты тона мы добавили задачу определения наличия высоты тона у данного кадра или нет.

Наши эксперименты по абляции показывают, что эти дополнительные задачи внесли большой вклад в предсказание вокальной молоди.

В нашей статье мы также представили еще одну версию модели. Мы заменили сверточный кодер на HuBERT [9]. HuBERT — это современная модель, обученная в режиме самоконтроля, которая имеет очень хорошее скрытое представление речевого сигнала. Мы сохраняем модель HuBERT фиксированной, так что только верхний уровень точно настраивается для прогнозирования голоса, скрипа и высоты тона. Результаты показывают, что оба метода улучшают обнаружение областей голосовых мальков, причем HuBERT лучше работает с невидимыми данными. Однако важно отметить, что наша модель имеет менее 5 миллионов параметров и была обучена только на 24 минутах речи, в то время как HuBERT — гораздо более крупная модель с 90 миллионами параметров, предварительно обученная на 960 часах Librispeech и также требующая накладных расходов. извлечения функций для каждого аудиофайла.

Заключительные заметки

В этом посте мы представили вокальных мальков, объяснили, почему их обнаружение затруднено, и предложили два метода их обнаружения. Тем не менее, есть еще над чем работать. Например, в нашей тренировочной программе мы использовали только помеченные фрагменты вокала, но у нас было очень мало речевых данных, где голосовые фрагменты были явно помечены; такая маркировка требует фонетических знаний и трудна и требует много времени. Мы могли бы дополнительно улучшить обнаружение, используя нашу обученную модель для маркировки большего количества сегментов полуконтролируемым способом и дальнейшего улучшения модели.

Также важно отметить, что последние современные модели ASR, такие как HuBERT, справляются с обработкой вокала. Однако эти модели очень велики и не могут быть легко доступны без интенсивных вычислительных ресурсов.

Подробнее о нашей реализации можно узнать в общедоступном репозитории по обнаружению голосовых мальков: https://github.com/bronichern/DeepFry/.

Ссылки:
[1] Р. Огден, «Переход поворота, скрип и гортанная остановка в финском разговоре —
во взаимодействии», Журнал Международной фонетической ассоциации,
том. 31, нет. 1, pp. 139–152, 2001.
[2] С. Вишнубхотла и К.Ю. Эспи-Уилсон, «Автоматическое обнаружение
неправильной фонации в непрерывной речи», Девятая международная
конференция по Spoken Language Processing, 2006.
[3] C. T. Ishi, K.-I. Сакакибара, Х. Исигуро и Н. Хагита, «Метод
автоматического обнаружения вокальной мальчишки», IEEE-транзакции по аудио,
речи и языковой обработке, том. 16, нет. 1, pp. 47–56, 2007.
[4] А. Каллен, Дж. Кейн, Т. Другман и Н. Харт, «Скрипучий голос
и классификация аффекта», Труды WASSS, Гренобль,
Франция, 2013 г.
[5] Т. Другман, Дж. Кейн и К. Гобл, «Резонаторное обнаружение скрипучего голоса
», Тринадцатая ежегодная конференция The International
Speech Communication Association, 2012.
[6] С. Шерер, Дж. Кейн, К. Гобл и Ф. Швенкер, «Изучение
нечеткого входного нечеткого выходного опорного вектора машины для надежной классификации качества
голоса», Computer Speech & Language, vol. 27,
нет. 1, pp. 263–287, 2013.
[7] Дж. Кейн, Т. Другман и К. Гобл, «Улучшенное автоматическое обнаружение
скрипа», Computer Speech & Language, vol. 27, нет. 4, pp. 1028–
1047, 2013.
[8] Т. Другман, Дж. Кейн и К. Гобл, «Управляемое данными обнаружение и
анализ закономерностей скрипучих голос», Computer Speech & Lan-
guage, vol. 28, нет. 5, pp. 1233–1253, 2014.
[9] Хсу, Вей-Нинг и др. «Хьюберт: самоконтролируемое обучение представлению речи путем маскированного предсказания скрытых единиц». IEEE/ACM Transactions on Audio, Speech and Language Processing 29 (2021): 3451–3460.