Google Cloud транслирует речь в текст?

Я хочу интегрировать речь в текст в электронном настольном приложении с потоковой передачей в реальном времени без создания файла .mp3 локально, или вы можете сказать прямую потоковую передачу с микрофона в облачную речь Google.

Я нашел статью на веб-сайте облака Google, которая является здесь. (в последнем месте, где говорится, что необходимо установить SoX).

У него довольно запутанное требование о том, что SoX должен быть установлен на машине.

Но когда я оборачиваю свое электронное приложение и распространяю его по всему миру, тогда не обязательно, чтобы все устанавливали SoX. Итак, как я могу интегрировать его или могу я установить SoX на ПК каждого, когда они собираются установить мое приложение, потому что, как говорится в документации, SoX является обязательным. Есть ли способ обойти это?




Ответы (1)


Если мы посмотрим на последний образец, записанный в node.js на странице, которую вы связали, мы увидим, что он использует модуль под названием «node-record-lpcm16», который не является частью GCP. Если мы будем читать дальше, то найдем вызов record.start (). Целью этого является источник входного потока данных (предположительно с микрофона). Насколько я понимаю, когда мы изучаем статью о преобразовании речи в текст, мы видим, что GCP не заботится о том, откуда исходит источник звука, и это зависит от вашего собственного приложения, откуда его брать. Образец иллюстрирует только один возможный метод использования SoX, но есть и другие, такие как «arecord» и, вероятно, другие. Я думаю, что нам нужно отделить понятие источника аудиовхода от возможностей GCP по обработке потока аудиовхода. Таким образом, я не считаю, что преобразование речи в текст из GCP требует SoX; скорее, ваше приложение, которое получает аудиоданные, должно получать эти данные откуда-то, прежде чем передавать их в GCP, и SoX является одним из возможных вариантов.

person Kolban    schedule 08.10.2018