доступ к аудиофайлам из Google Cloud Storage при использовании Google Speech

Я использовал этот фрагмент кода ниже, чтобы успешно проанализировать файл .wav, который содержит речь, в текст, используя Google Speech.

Но я хочу получить доступ к другому файлу .wav, который я разместил в облачном хранилище Google (публично), а не на своем локальном жестком диске. Почему бы просто не изменить

speech_file = 'my/local/system/sample.wav'

to
speech_file = 'https://console.cloud.google.com/storage/browser/speech_proj_files/sample.wav'

работать приемлемо?

Вот мой код:

speech_file = 'https://console.cloud.google.com/storage/browser/speech_proj_files/sample.wav'

DISCOVERY_URL = ('https://{api}.googleapis.com/$discovery/rest?'
                 'version={apiVersion}')


def get_speech_service():
    credentials = GoogleCredentials.get_application_default().create_scoped(
        ['https://www.googleapis.com/auth/cloud-platform'])
    http = htt|plib2.Http()
    credentials.authorize(http)

    return discovery.build(
        'speech', 'v1beta1', http=http, discoveryServiceUrl=DISCOVERY_URL)

def main(speech_file):
    """Transcribe the given audio file.

    Args:
        speech_file: the name of the audio file.
    """
    with open(speech_file, 'rb') as speech:
        speech_content = base64.b64encode(speech.read())

    service = get_speech_service()
    service_request = service.speech().syncrecognize(
        body={
            'config': {
                'encoding': 'LINEAR16',  # raw 16-bit signed LE samples
                'sampleRate': 44100,  # 16 khz
                'languageCode': 'en-US',  # a BCP-47 language tag
            },
            'audio': {
                'content': speech_content.decode('UTF-8')
                }
            })
    response = service_request.execute()
    return response

person Monica Heddneck    schedule 21.04.2017    source источник


Ответы (1)


Я не уверен, почему ваш подход не работает, но я хочу предложить быстрое предложение.

Google Cloud Speech API изначально поддерживает объекты Google Cloud Storage. Вместо того, чтобы загружать весь объект только для того, чтобы загрузить его обратно в Cloud Speech API, просто укажите объект, заменив эту строку:

        'audio': {
            # Remove this: 'content': speech_content.decode('UTF-8')
            'uri': 'gs://speech_proj_files/sample.wav'  # Do this!
            }

Еще одно предложение. Возможно, вам будет проще использовать библиотеку Python google-cloud. Попробуй это:

from google.cloud import speech
speech_client = speech.Client()

audio_sample = speech_client.sample(
    content=None,
    source_uri='gs://speech_proj_files/sample.wav',
    encoding='LINEAR16',
    sample_rate_hertz= 44100)
results_list = audio_sample.sync_recognize(language_code='en-US')

Здесь есть несколько замечательных примеров: https://github.com/GoogleCloudPlatform/python-docs-samples/tree/master/speech/cloud-client

person Brandon Yarbrough    schedule 21.04.2017
comment
Второй блок кода работает хорошо, просто у меня проблемы с доступом ко всему, что хранится в файле results_list. Это какой-то объект, отличный от списка, это точно... не похоже на json... что это такое и как его взломать? results_list.response подходит пустым. Возможно, это действительно не сработало. - person Monica Heddneck; 22.04.2017
comment
Я возился с этим весь день - в итоге я задал другой вопрос stackoverflow.com/questions/43555694/ Еще раз спасибо за вашу помощь в этом. Это значит многое. - person Monica Heddneck; 22.04.2017
comment
@BrandonYarbrough Я думаю, что Моника хотела знать, как получить доступ к своему объекту в своем ведре, не делая объект общедоступным. - person Ted Taylor of Life; 27.07.2017