Существует множество аудиоформатов (например, mp3, m4a), источников (например, диктовка, команды, телефонные звонки, встречи) и устройств (например, телефоны, ПК, устройства IoT). Какие из них лучше всего работают с Cloud Speech API?
Какие типы звука поддерживаются Cloud Speech API?
Ответы (1)
Какие из них лучше всего работают с Cloud Speech API?
Поддерживаемые должны работать лучше всего:
- LINEAR16 Несжатые 16-битные знаковые выборки с прямым порядком байтов. Это единственная кодировка, которую может использовать voice.asyncrecognize.
- FLAC Это рекомендуемая кодировка для voice.syncrecognize и StreamingRecognize, поскольку она использует сжатие без потерь; поэтому точность распознавания не снижается из-за кодека с потерями.
- 8-битные сэмплы MULAW, которые объединяют 14-битные аудиосэмплы с использованием G.711 PCMU/mu-law.
- Адаптивный многоскоростной узкополосный кодек AMR. SampleRate должен быть 8000 Гц.
- AMR_WB Адаптивный многоскоростной широкополосный кодек. SampleRate должен быть 16000 Гц.
https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding
person
Marcin Orlowski
schedule
15.10.2016