Публикации по теме 'speech-recognition'
Решение финской речи в текст обнаруживает потенциальных клиентов из разговоров
В последнее время мы разрабатывали собственную финскую модель преобразования речи в текст, и теперь она готова! Финская модель преобразования речи в текст предназначена для помощи крупным компаниям в выявлении критически важных для бизнеса закономерностей в существующих телефонных звонках, таких как потенциальные покупатели, утечки информации, недовольные и уходящие клиенты. Анализ телефонных звонков помогает менеджерам по продажам находить новых потенциальных клиентов (потенциальных..
Окей, Google: как распознавать речь?
Распознавание речи - это задача распознавания произнесенных слов. Есть много методов распознавания речи. В этом посте мы рассмотрим некоторую предысторию, необходимую для распознавания речи, и воспользуемся базовой техникой для построения модели распознавания речи. Код доступен на GitHub . Для техник, упомянутых в этом посте, ознакомьтесь с этим Блокнотом Jupyter .
Немного предыстории для обработки звука
Давайте сделаем шаг назад и разберемся, что такое звук на самом деле. Мы..
Начало работы с распознаванием речи и эмоций | Визуализация эмоций
С увеличением количества систем взаимодействия человека с компьютером и голосовых приложений в современном мире, для наших интеллектуальных систем стало необходимо научиться распознавать различные эмоции для более эффективного общения. Растет потребность не только в извлечении лингвистической информации из речи, но и в включении связанных с ней эмоций.
Распознавание речевых эмоций (SER) - очень сложная задача из-за огромных вложений в создание соответствующих обучающих данных и высокой..
ASR Rescoring с тонкой настройкой GPT
Введение
Автоматическое распознавание речи в последние годы значительно расширилось из-за слияния нескольких тенденций, таких как взрыв методов глубокого обучения и популярность таких устройств, как Alexa или Google Home.
Сообщество Open Source предлагает несколько мощных альтернатив для ASR, например Kaldi toolkit , Mozilla’s Deep Speech , Facebook Wav2Letter и Nvidia NeMo ASR . Точность этих библиотек довольно высока при работе с чистым звуком, но возникают некоторые проблемы при..
Как мы создали систему распознавания арабской речи с помощью KALDI
Фон
Это был наш выпускной проект, это был результат сотрудничества команды из города Зеваил ( Мохамед Махер и Мохамед Эль-Хефнави и Омар Хаграсс & Омар Мергани ) и RDI.
Вступление
Арабский считается одним из сложных языков для использования в системах распознавания речи из-за его большого лексического разнообразия и сложной морфологии. Арабский язык можно разделить на три различных типа: классический арабский, современный стандартный арабский (MSA) и разговорный..
Реальные приложения машинного обучения
AI ( Искусственный интеллект ) окружает нас повсюду. Возможно, вы уже каким-то образом его используете и даже не осознаёте этого. Машинное обучение (ML) - это видное использование ИИ , в котором компьютеры , программное обеспечение и гаджеты действуют посредством познания (очень похож на человеческий мозг).
Машинное обучение - это модное слово в современных технологиях, и оно быстро развивается. Мы используем машинное обучение в повседневной жизни в виде Google Maps..
Интерспич 2017 | Самоадаптивная технология распознавания речи
Введение
Interspeech 2017 проходил с 20 по 24 августа 2017 года в Стокгольме, Швеция. Участники из различных исследовательских институтов, университетов и известных компаний использовали эту платформу для обмена новейшими технологиями, системами и продуктами. К мероприятию также присоединилась высококлассная команда Alibaba Group, Бриллиантового спонсора конференции. Было объявлено, что с 25 октября команда Alibaba iDST Voice и облачное сообщество Alibaba будут совместно работать над..