Какие типы звука поддерживаются Cloud Speech API?

Существует множество аудиоформатов (например, mp3, m4a), источников (например, диктовка, команды, телефонные звонки, встречи) и устройств (например, телефоны, ПК, устройства IoT). Какие из них лучше всего работают с Cloud Speech API?

google-cloud-speech

Dan Holevoet 20.07.2016 источник

Ответы (1)

arrow_upward
4
arrow_downward

Какие из них лучше всего работают с Cloud Speech API?

Поддерживаемые должны работать лучше всего:

LINEAR16 Несжатые 16-битные знаковые выборки с прямым порядком байтов. Это единственная кодировка, которую может использовать voice.asyncrecognize.
FLAC Это рекомендуемая кодировка для voice.syncrecognize и StreamingRecognize, поскольку она использует сжатие без потерь; поэтому точность распознавания не снижается из-за кодека с потерями.
8-битные сэмплы MULAW, которые объединяют 14-битные аудиосэмплы с использованием G.711 PCMU/mu-law.
Адаптивный многоскоростной узкополосный кодек AMR. SampleRate должен быть 8000 Гц.
AMR_WB Адаптивный многоскоростной широкополосный кодек. SampleRate должен быть 16000 Гц.

https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding

Marcin Orlowski 15.10.2016

Какие типы звука поддерживаются Cloud Speech API?

Ответы (1)

Вопросы по теме