https://arxiv.org/pdf/2004.11284.pdf
https://anonymous0818.github.io/
Это еще один отличный пример, когда → DL используется для изучения множества данных → при этом можно разложить функции → такие как тембр, высота тона и рифма без какой-либо информации о метках → это мощный материал → если у вас достаточно данных.
Похоже, что в мире речи → действительно полезно иметь модель, которая может разложить все это на части → это довольно удивительно. (о том, как много мы можем сделать с помощью глубокого обучения).
Распутывание признаков → действительно сложно, но если мы сможем это сделать → можно сделать много приложений → довольно интересно посмотреть, как признаки определяются в речи → похоже на изображение и nlp.
И эта проблема сформулирована в неконтролируемой манере → очень хороший способ использовать много данных. (это все делается без текстового перевода выступления)
И есть некоторое ограничение → опять же похоже, что они используют эти бутылки в качестве правила, чтобы получить то, что они именно хотят в модели.
Это верно → если нам нужны текстовые транскрипции → это не очень хорошая идея → так как → нам нужно определенное решение, где → его можно применить где угодно и где угодно.
Высота звука → отличается от мужского и женского → тон → вся эта информация кодируется при распутывании.
Они достигают этого через → энтропию → и взаимную информацию.
Очень умная формулировка проблемы → это сложное, но довольно мощное решение. (для получения того, что мы хотим от модели, используется другой тип регуляризации)
Они используют общий кодировщик и декодер → встраивание в речевые спектрограммы.
И мы видим, что речевые данные кодируются в другую форму → не работает с данными прямой волны.
И они даже могут переключаться между мужчиной и женщиной → надеюсь, в другой возрастной группе.
И для каждой функции → коэффициенты конверсии различаются → довольно интересный способ найти и отточить статистику каждой функции.
Некоторые функции → изменяются глобально, в то время как другие можно изменять модульно.