MP3 AudioEncoding не работает, я сейчас использую v1beta1?

Я пытаюсь транскрибировать аудио из потока с помощью этого руководства (раздел «Выполнение потокового распознавания речи в локальном файле»): https://cloud.google.com/speech-to-text/docs/потоковоераспознавание

Файл представляет собой файл M3U, поэтому я пытаюсь использовать параметр RecognitionConfig.AudioEncoding.MP3, но атрибут MP3 отклоняется. Когда я пытаюсь автозаполнить опцию, MP3 тоже не появляется.

В документации показано, что атрибут MP3 доступен только в версии v1beta1 (https://cloud.google.com/text-to-speech/docs/reference/rpc/google.cloud.texttospeech.v1beta1#google)..cloud.texttospeech.v1beta1.AudioEncoding), и я запустил обновление pip.

Есть ли что-то еще, что мне нужно сделать, чтобы установить v1beta1?


person Randy    schedule 20.01.2020    source источник


Ответы (1)


Обратите внимание, что вторая ссылка, которой вы поделились, касающаяся v1beta1, предназначена для API Text-to-Speech, что является противоположностью примеров, которым вы следуете (Speech-to-Text). сильный> API).

В этом случае для использования RecognitionConfig.AudioEncoding.MP3 необходимо использовать v1p1beta1. Никаких изменений в команде pip (pip install --upgrade google-cloud-speech) не требуется, но вам нужно импортировать правильную версию (speech_v1p1beta1) в код Python:

# [START speech_transcribe_streaming]
def transcribe_streaming(stream_file):
    """Streams transcription of the given audio file."""
    import io
    from google.cloud import speech_v1p1beta1
    from google.cloud.speech_v1p1beta1 import enums
    from google.cloud.speech_v1p1beta1 import types
    client = speech_v1p1beta1.SpeechClient()

И теперь вы можете использовать кодировку MP3:

    config = types.RecognitionConfig(
        encoding=enums.RecognitionConfig.AudioEncoding.MP3,
        sample_rate_hertz=16000,
        language_code='en-US')
    streaming_config = types.StreamingRecognitionConfig(config=config)

Полный код здесь, но это всего лишь базовый пример с предыдущими изменениями.

Протестировано с образцом MP3:

$ python mp3.py sample.mp3
Finished: True
Stability: 0.0
Confidence: 0.9875912666320801
Transcript: I'm sorry Dave I'm afraid I can't do that
person Guillem Xercavins    schedule 21.01.2020