Публикации по теме speech-recognition

Публикации по теме 'speech-recognition'

Решение финской речи в текст обнаруживает потенциальных клиентов из разговоров

В последнее время мы разрабатывали собственную финскую модель преобразования речи в текст, и теперь она готова! Финская модель преобразования речи в текст предназначена для помощи крупным компаниям в выявлении критически важных для бизнеса закономерностей в существующих телефонных звонках, таких как потенциальные покупатели, утечки информации, недовольные и уходящие клиенты. Анализ телефонных звонков помогает менеджерам по продажам находить новых потенциальных клиентов (потенциальных..

Окей, Google: как распознавать речь?

Распознавание речи - это задача распознавания произнесенных слов. Есть много методов распознавания речи. В этом посте мы рассмотрим некоторую предысторию, необходимую для распознавания речи, и воспользуемся базовой техникой для построения модели распознавания речи. Код доступен на GitHub . Для техник, упомянутых в этом посте, ознакомьтесь с этим Блокнотом Jupyter . Немного предыстории для обработки звука Давайте сделаем шаг назад и разберемся, что такое звук на самом деле. Мы..

Начало работы с распознаванием речи и эмоций | Визуализация эмоций

С увеличением количества систем взаимодействия человека с компьютером и голосовых приложений в современном мире, для наших интеллектуальных систем стало необходимо научиться распознавать различные эмоции для более эффективного общения. Растет потребность не только в извлечении лингвистической информации из речи, но и в включении связанных с ней эмоций. Распознавание речевых эмоций (SER) - очень сложная задача из-за огромных вложений в создание соответствующих обучающих данных и высокой..

ASR Rescoring с тонкой настройкой GPT

Введение Автоматическое распознавание речи в последние годы значительно расширилось из-за слияния нескольких тенденций, таких как взрыв методов глубокого обучения и популярность таких устройств, как Alexa или Google Home. Сообщество Open Source предлагает несколько мощных альтернатив для ASR, например Kaldi toolkit , Mozilla’s Deep Speech , Facebook Wav2Letter и Nvidia NeMo ASR . Точность этих библиотек довольно высока при работе с чистым звуком, но возникают некоторые проблемы при..

Как мы создали систему распознавания арабской речи с помощью KALDI

Фон Это был наш выпускной проект, это был результат сотрудничества команды из города Зеваил ( Мохамед Махер и Мохамед Эль-Хефнави и Омар Хаграсс & Омар Мергани ) и RDI. Вступление Арабский считается одним из сложных языков для использования в системах распознавания речи из-за его большого лексического разнообразия и сложной морфологии. Арабский язык можно разделить на три различных типа: классический арабский, современный стандартный арабский (MSA) и разговорный..

Реальные приложения машинного обучения

AI ( Искусственный интеллект ) окружает нас повсюду. Возможно, вы уже каким-то образом его используете и даже не осознаёте этого. Машинное обучение (ML) - это видное использование ИИ , в котором компьютеры , программное обеспечение и гаджеты действуют посредством познания (очень похож на человеческий мозг). Машинное обучение - это модное слово в современных технологиях, и оно быстро развивается. Мы используем машинное обучение в повседневной жизни в виде Google Maps..

Интерспич 2017 | Самоадаптивная технология распознавания речи

Введение Interspeech 2017 проходил с 20 по 24 августа 2017 года в Стокгольме, Швеция. Участники из различных исследовательских институтов, университетов и известных компаний использовали эту платформу для обмена новейшими технологиями, системами и продуктами. К мероприятию также присоединилась высококлассная команда Alibaba Group, Бриллиантового спонсора конференции. Было объявлено, что с 25 октября команда Alibaba iDST Voice и облачное сообщество Alibaba будут совместно работать над..