Я использую облачную речь Google через Python и обнаружил, что многие транскрипции неточны и отсутствуют несколько слов. Это простой скрипт, который я использую для возврата расшифровки аудиофайла, в данном случае out307.wav:
client = speech.SpeechClient()
with io.open('out307.wav', 'rb') as audio_file:
content = audio_file.read()
audio = speech.types.RecognitionAudio(content=content)
config = speech.types.RecognitionConfig(
enable_word_time_offsets=True,
language_code='en-US',
audio_channel_count=1)
response = client.recognize(config, audio)
for result in response.results:
alternative = result.alternatives[0]
print(u'Transcript: {}'.format(alternative.transcript))
Это возвращает следующую расшифровку:
чтобы сделать это напряжение и подозрения, кроме
Это очень далеко от того, что говорит реальный звук (я загрузил его на https://vocaroo.com/i/s1zdZ0SOH1Ki). Звук в формате .wav, очень чистый, без фонового шума. Это хуже среднего, так как в некоторых случаях будет полностью правильная транскрипция 10-секундного аудиофайла или может быть пропущена всего пара слов. Что я могу сделать, чтобы улучшить результаты?