Аудио Feature Engineering | Навстречу AI

Два способа изучить аудио-эмбеддинги

Мелкочастотные кепстральные коэффициенты (MFCC), скорость перехода через нуль - некоторые из классических особенностей аудио. Его можно легко извлечь через библиотеку. Однако в настоящее время он может не обеспечивать высококачественный сигнал или ввод для моделей глубокого обучения.

Две группы исследователей предлагают другой способ изучения встраивания звука, но без использования этих классических функций. Чанг и Гласс (2018) предлагают изучить вложения на основе слов, в то время как Хак и др. (2019) предлагает изучить вложения на основе предложений.

Speech2Vec

Чанг и Гласс вдохновлены word2vec, чтобы предложить другой способ изучения встраивания аудио. word2vec использует skip-gram или непрерывный пакет слов (CBOW) для изучения встраивания слов. Короче говоря, вложения слов изучаются через соседние слова. Если вы не знакомы с ним, вы можете посетить исследовательскую статью или этот рассказ.

Speech2Vec использует аналогичную концепцию, которая изучает акустические вложения через соседние акустические области. Аудиосегмент разбивается по словам и подается в модель, чтобы узнать фиксированное встраивание аудиосегмента, соответствующего слову.

Speech2Vec со скип-граммом и CBOW

Так же, как и подход word2vec с пропуском грамматики, целевое слово предсказывает окружающие слова с заранее определенным диапазоном k перед целевым словом и после целевого слова. Сплошной набор слов (CBOW) Speech2Vec работает по-разному. Вместо того, чтобы использовать целевые слова для предсказания окружающих слов, он использует окружающие слова для предсказания целевых слов.

Вложения на уровне предложений

Хак и др. ввести вложения на уровне предложений для аудиовходов, в то время как встраивание звука на уровне символов, слов или фонем является классическими методами встраивания. Точка зрения состоит в том, что классические вложения слишком короткие, в то время как уровень предложения достаточно длинный, чтобы уловить смысл более высокого уровня.

Авторы сформулировали процесс обучения как многозадачное обучение для изучения вложения устных предложений. Задачи включают распознавание речи, распознавание эмоций и идентификацию говорящего.

Забрать

  • Сегментировать аудио по слову и предложению во время онлайн-прогнозирования может быть не так просто.
  • Для Speech2Vec одно и то же слово имеет разные вложения из-за разных динамиков, каналов и фонового шума. Для удобства эксперимента вложения одних и тех же слов будут средними для представления определенных слов.

Любите учиться?

Я специалист по анализу данных в районе залива. Сосредоточение внимания на новейших достижениях науки о данных, искусственного интеллекта, особенно в области НЛП и связанных с ними платформ. Не стесняйтесь связываться со мной в LinkedIn или Github.

Чтение расширений

Ссылка