Ссылка на статью: https://arxiv.org/pdf/1909.06351.pdf

Предыдущая работа показала, что i-векторы, хотя и разработаны для распознавания говорящего, могут улучшить автоматическое распознавание речи (ASR), поскольку они фиксируют характеристики говорящего и канала .
В частности, x-векторы показали получение современная производительность независимой от текста проверки говорящего. В этой статье мы исследуем, содержит ли встраивание x-вектора, которое обучено исключительно для предсказания метки говорящего, случайную информацию о транскрипции, канале или метаинформацию о высказывании.

Совсем недавно было показано, что как i-векторы, так и x-векторы содержат информацию о стиле речи и эмоциях.
Поскольку x-векторы обучаются независимо от текста, предсказывая метка говорящего, учитывая характеристики входного высказывания, они хорошо работают в независящих от текста задачах проверки говорящего.

I-векторы против X-векторов:

Эксперименты по сравнению ivector и xvector и дополненной версии xvector.

Структура i-вектора предполагает, что говорящий и зависимый от сеанса супервектор M гауссовых средних векторов могут быть смоделированы как M = m + Tw, где m — говорящий и независимый от сеанса супервектор, полученный из смешанной модели Гаусса (GMM) на основе универсального фона. модели (UBM), T представляет собой матрицу общей изменчивости низкого ранга, которая охватывает как динамику, так и изменчивость сеанса, а i-вектор представляет собой апостериорное среднее значение w.

Система обучается на 30 функциях MFCC с длиной кадра 25 мс, которые нормированы по среднему значению в скользящем окне до 3 секунд.
Система обнаружения речевой активности на основе энергии (SAD) выбирает функции, соответствующие речи. кадры. UBM представляет собой GMM с полной ковариацией 2048 компонентов.

Результаты: