Ученый искусственного интеллекта: достижение непрерывного синтеза эмоциональной речи

Это резюме исследования - лишь одно из многих, которые еженедельно распространяются в информационном бюллетене для ученых в области ИИ. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

Когда дело доходит до разработки надежных моделей взаимодействия человека с машиной, эмоциональная речь является важнейшим компонентом. В результате в недавнем прошлом было много попыток добавить эмоциональные эффекты к синтезированной речи.

Исследования проводились и продолжаются, и было разработано несколько прототипов и систем, основанных на различных методах синтеза. Например, было разработано несколько подходов к глубокому обучению, чтобы помочь улучшить естественность синтетической речи.

Сквозной синтез эмоциональной речи с использованием токенов стиля и полу-контролируемого обучения

Китайские исследователи предложили полууправляемый метод обучения эмоциональному синтезу речи (ESS), в котором используются токены глобального стиля (GST), стремясь к условию, что только небольшая часть обучающих данных имеет метки эмоций.

Предлагаемая модель основана на фреймворке GST-Tacotron. Жетоны стиля четко определены для представления категорий эмоций, и между весами токенов и метками эмоций вводится перекрестная энтропия, чтобы установить взаимно однозначное соответствие между токенами и эмоциями. Затем параметры алгоритма оцениваются путем многозадачного обучения с использованием доступных обучающих выборок меток эмоций.

Возможное использование и эффекты

Улучшенный синтез эмоциональной речи имеет большое значение для развития всех видов взаимодействия человека с машиной.

По оценке, эта недавно предложенная модель превосходит традиционную модель эмоционального синтеза речи Tacotron, когда только 5% обучающих данных имеют метки эмоций. Используя только 5% ярлыков эмоций, предложенная модель продемонстрировала естественность и эмоциональную выразительность традиционной модели, когда в ней используются все ярлыки эмоций.

Эксперименты по распознаванию эмоций подтверждают, что с помощью этого метода можно эффективно добиться однозначного соответствия между маркерами стиля и категориями эмоций.

Подробнее: https://arxiv.org/abs/1906.10859

Спасибо за прочтение. Прокомментируйте, поделитесь и не забудьте подписаться на нашу еженедельную рассылку, чтобы получать самые свежие и интересные исследования! Вы также можете подписаться на меня в Twitter и LinkedIn. Не забудьте 👏, если вам понравилась эта статья. Ваше здоровье!