Аудио Feature Engineering | Навстречу AI
Два способа изучить аудио-эмбеддинги
Мелкочастотные кепстральные коэффициенты (MFCC), скорость перехода через нуль - некоторые из классических особенностей аудио. Его можно легко извлечь через библиотеку. Однако в настоящее время он может не обеспечивать высококачественный сигнал или ввод для моделей глубокого обучения.
Две группы исследователей предлагают другой способ изучения встраивания звука, но без использования этих классических функций. Чанг и Гласс (2018) предлагают изучить вложения на основе слов, в то время как Хак и др. (2019) предлагает изучить вложения на основе предложений.
Speech2Vec
Чанг и Гласс вдохновлены word2vec, чтобы предложить другой способ изучения встраивания аудио. word2vec использует skip-gram или непрерывный пакет слов (CBOW) для изучения встраивания слов. Короче говоря, вложения слов изучаются через соседние слова. Если вы не знакомы с ним, вы можете посетить исследовательскую статью или этот рассказ.
Speech2Vec использует аналогичную концепцию, которая изучает акустические вложения через соседние акустические области. Аудиосегмент разбивается по словам и подается в модель, чтобы узнать фиксированное встраивание аудиосегмента, соответствующего слову.
Speech2Vec со скип-граммом и CBOW
Так же, как и подход word2vec с пропуском грамматики, целевое слово предсказывает окружающие слова с заранее определенным диапазоном k перед целевым словом и после целевого слова. Сплошной набор слов (CBOW) Speech2Vec работает по-разному. Вместо того, чтобы использовать целевые слова для предсказания окружающих слов, он использует окружающие слова для предсказания целевых слов.
Вложения на уровне предложений
Хак и др. ввести вложения на уровне предложений для аудиовходов, в то время как встраивание звука на уровне символов, слов или фонем является классическими методами встраивания. Точка зрения состоит в том, что классические вложения слишком короткие, в то время как уровень предложения достаточно длинный, чтобы уловить смысл более высокого уровня.
Авторы сформулировали процесс обучения как многозадачное обучение для изучения вложения устных предложений. Задачи включают распознавание речи, распознавание эмоций и идентификацию говорящего.
Забрать
- Сегментировать аудио по слову и предложению во время онлайн-прогнозирования может быть не так просто.
- Для Speech2Vec одно и то же слово имеет разные вложения из-за разных динамиков, каналов и фонового шума. Для удобства эксперимента вложения одних и тех же слов будут средними для представления определенных слов.
Любите учиться?
Я специалист по анализу данных в районе залива. Сосредоточение внимания на новейших достижениях науки о данных, искусственного интеллекта, особенно в области НЛП и связанных с ними платформ. Не стесняйтесь связываться со мной в LinkedIn или Github.
Чтение расширений
- Как можно применить обучение без учителя к аудиоданным
- Как работает ваш помощник на основе технологии преобразования текста в речь
Ссылка
- Т. Миколов, Дж. Коррадо, К. Чен и Джеффри Дин. Эффективное оценивание представлений слов в векторном пространстве. 2013.
- Ю. Чанг и Дж. Гласс. Speech2Vec: структура от последовательности к последовательности для изучения вложения слов из речи. 2018 г.
- А. Хак, М. Го, П. Верма и Ф. Ф. Ли. Аудио-лингвистические вложения для произнесенных предложений. 2019 г.