Неконтролируемая декомпозиция речи с помощью тройного информационного узкого места

https://arxiv.org/pdf/2004.11284.pdf

https://anonymous0818.github.io/

Это еще один отличный пример, когда → DL используется для изучения множества данных → при этом можно разложить функции → такие как тембр, высота тона и рифма без какой-либо информации о метках → это мощный материал → если у вас достаточно данных.

Похоже, что в мире речи → действительно полезно иметь модель, которая может разложить все это на части → это довольно удивительно. (о том, как много мы можем сделать с помощью глубокого обучения).

Распутывание признаков → действительно сложно, но если мы сможем это сделать → можно сделать много приложений → довольно интересно посмотреть, как признаки определяются в речи → похоже на изображение и nlp.

И эта проблема сформулирована в неконтролируемой манере → очень хороший способ использовать много данных. (это все делается без текстового перевода выступления)

И есть некоторое ограничение → опять же похоже, что они используют эти бутылки в качестве правила, чтобы получить то, что они именно хотят в модели.

Это верно → если нам нужны текстовые транскрипции → это не очень хорошая идея → так как → нам нужно определенное решение, где → его можно применить где угодно и где угодно.

Высота звука → отличается от мужского и женского → тон → вся эта информация кодируется при распутывании.

Они достигают этого через → энтропию → и взаимную информацию.

Очень умная формулировка проблемы → это сложное, но довольно мощное решение. (для получения того, что мы хотим от модели, используется другой тип регуляризации)

Они используют общий кодировщик и декодер → встраивание в речевые спектрограммы.

И мы видим, что речевые данные кодируются в другую форму → не работает с данными прямой волны.

И они даже могут переключаться между мужчиной и женщиной → надеюсь, в другой возрастной группе.

И для каждой функции → коэффициенты конверсии различаются → довольно интересный способ найти и отточить статистику каждой функции.

Некоторые функции → изменяются глобально, в то время как другие можно изменять модульно.

Неконтролируемая декомпозиция речи с помощью тройного информационного узкого места

Вопросы по теме