Google Speech API не принимает большие аудиофайлы

Я получаю сообщение об ошибке сервера при попытке обработать большие аудиофайлы. Изначально аудиофайлы имеют формат audio / m4a @ 32kHz, и в соответствии с рекомендациями документации я конвертирую / сжимаю их в audio / amr_wb @ 16kHz. Эти файлы намного меньше лимита звука в 180 минут, но я все еще получаю ошибку сервера при их обработке.

GaxError Exception occurred in retry method that was not classified as transient, caused by 8:Received message larger than max (5371623 vs. 4194304)

Я использую версию V1p1beta и метод long_running_recognize для расшифровки этих аудиофайлов. Мои файлы размещены в Google Cloud Storage, и я указываю uri в своем вызове API.

Как я могу отправлять большие аудиофайлы в API без применения сервером ограничений по размеру? Кажется неправильным рекомендовать использовать FLAC или WAV и иметь лимит звука длиной 180 минут, если сервер не может даже обработать мой часовой аудиофайл, который был закодирован в AMR_WB.

Спасибо за любую помощь


person brianarpie    schedule 27.07.2018    source источник


Ответы (1)


В настоящее время API преобразования речи в текст выпустил конечную точку v1, Предлагаю попробовать эту версию. Я смог получить правильный ответ, используя 90-минутный звук.

person F10    schedule 03.08.2018