Как настроить скорость речи в сервисе преобразования текста в речь Watson через curl?

* не имеет опыта кодирования и т. д.

Я нашел ответ в синтаксисе прерывания SSML, но не уверен, смогу ли я использовать его с нейронными голосами (V3) + не уверен (если да, на вопрос здесь), где я могу вставить этот синтаксис прерывания в мои команды curl


person songs    schedule 11.06.2020    source источник


Ответы (2)


Команда cURL для синтеза речи из документации API: https://cloud.ibm.com/apidocs/text-to-speech#synthesize-audio-get.

curl -X GET -u "apikey:{apikey}" --output hello_world.wav "{url}/v1/synthesize?accept=audio%2Fwav&text=Hello%20world&voice=en-US_AllisonV3Voice"

Обрабатываемый текст

text=Hello%20world

Если вам нужно добавить преобразование голоса SSML, например.

<voice-transformation rate="slow">
  Hello World
</voice-transformation>

Затем вам нужно экранировать символы HTML, чтобы

text=&lt;voice-transformation rate=&quot;slow&quot;&gt;Hello%20world&lt;voice-transformation rate=&quot;slow&quot;&gt;

Создание полного cURL

curl -X GET -u "apikey:{apikey}" --output hello_world.wav "{url}/v1/synthesize?accept=audio%2Fwav&amp;text=&lt;voice-transformation rate=&quot;slow&quot;&gt;Hello%20world&lt;voice-transformation rate=&quot;slow&quot;&gt;&amp;voice=en-US_AllisonV3Voice"

В настоящее время только 3 голоса могут быть изменены таким образом - https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-transformation.

  • en-US_AllisonVoice
  • en-US_LisaVoice
  • en-US_MichaelVoice

Итак, никаких нейронных голосов.

person chughts    schedule 12.06.2020
comment
Привет, большое спасибо за помощь. Хочу отметить свой ответ как ответ - но просто для уточнения: вы случайно не знаете, как я могу замедлить речь с помощью знаков препинания? (Я пробовал точку и запятые). Спасибо еще раз. - person songs; 17.06.2020
comment
Вы можете добавить <break>, <paragraph> или <sentance> - cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-timing - person chughts; 17.06.2020
comment
Я так понимаю, что здесь используется интерфейс websocket - работают ли 3 элемента, которые вы предложили, с нейронными голосами? * еще раз простите, так сказать не совсем программистом. - person songs; 20.06.2020

Ответ выше неточный. Вы можете контролировать скорость разговора для ВСЕХ голосов IBM, просто используйте разметку prosody SSML:

Уменьшить скорость разговора на 25%

person Radek Kazbunda    schedule 30.06.2020