Какие типы звука поддерживаются Cloud Speech API?

Существует множество аудиоформатов (например, mp3, m4a), источников (например, диктовка, команды, телефонные звонки, встречи) и устройств (например, телефоны, ПК, устройства IoT). Какие из них лучше всего работают с Cloud Speech API?


person Dan Holevoet    schedule 20.07.2016    source источник


Ответы (1)


Какие из них лучше всего работают с Cloud Speech API?

Поддерживаемые должны работать лучше всего:

  • LINEAR16 Несжатые 16-битные знаковые выборки с прямым порядком байтов. Это единственная кодировка, которую может использовать voice.asyncrecognize.
  • FLAC Это рекомендуемая кодировка для voice.syncrecognize и StreamingRecognize, поскольку она использует сжатие без потерь; поэтому точность распознавания не снижается из-за кодека с потерями.
  • 8-битные сэмплы MULAW, которые объединяют 14-битные аудиосэмплы с использованием G.711 PCMU/mu-law.
  • Адаптивный многоскоростной узкополосный кодек AMR. SampleRate должен быть 8000 Гц.
  • AMR_WB Адаптивный многоскоростной широкополосный кодек. SampleRate должен быть 16000 Гц.

https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding

person Marcin Orlowski    schedule 15.10.2016