Речь Google Cloud очень неточная и пропускает слова на чистом аудио

Я использую облачную речь Google через Python и обнаружил, что многие транскрипции неточны и отсутствуют несколько слов. Это простой скрипт, который я использую для возврата расшифровки аудиофайла, в данном случае out307.wav:

client = speech.SpeechClient()

with io.open('out307.wav', 'rb') as audio_file:
    content = audio_file.read()

audio = speech.types.RecognitionAudio(content=content)

config = speech.types.RecognitionConfig(
    enable_word_time_offsets=True,
    language_code='en-US',
    audio_channel_count=1)

response = client.recognize(config, audio)

for result in response.results:
    alternative = result.alternatives[0]
    print(u'Transcript: {}'.format(alternative.transcript))

Это возвращает следующую расшифровку:

чтобы сделать это напряжение и подозрения, кроме

Это очень далеко от того, что говорит реальный звук (я загрузил его на https://vocaroo.com/i/s1zdZ0SOH1Ki). Звук в формате .wav, очень чистый, без фонового шума. Это хуже среднего, так как в некоторых случаях будет полностью правильная транскрипция 10-секундного аудиофайла или может быть пропущена всего пара слов. Что я могу сделать, чтобы улучшить результаты?


person ZhouW    schedule 27.11.2018    source источник


Ответы (1)


Это странно, я попробовал ваш аудиофайл с вашим кодом и получил тот же результат, но, если я изменю language_code на "en-UK", я смогу получить полный ответ.

Я работаю в Google Cloud и создал для вас общедоступную проблему здесь, вы можете отслеживать там обновления.

person Alex Riquelme    schedule 27.11.2018