Публикации по теме speech-recognition

Публикации по теме 'speech-recognition'

Проблема технологии голосового взаимодействия в транспортных средствах

От голосового помощника Siri от Apple до Cortana от Microsoft интеллектуальное голосовое взаимодействие было частью нашей жизни. С развитием автомобильной промышленности и изменениями в потреблении концепции автономного вождения, умной кабины и новой энергии постепенно стали реальностью. Согласно отчету Автомобильного научно-исследовательского института Gasgoo, умные кабины будут интегрировать более интеллектуальные и цифровые функции, что значительно повысит ценность автомобилей...

DeepFry: алгоритмы глубоких нейронных сетей для идентификации Vocal Fry

Этот пост о нашей статье DeepFry , которая была принята к публикации на Interspeech 2022. Она была написана с помощью Йосси Кешет , Элеонора Чодрофф , Дженнифер С. Коул , Талия Бен Саймон, Яэль Сигал , Джереми Стеффман Что общего у Бритни Спирс, Зои Дешанель, Скарлетт Йоханссон и Ким Кардашьян? Все они используют тональное качество фрай вокала , тип скрипучего звука, который возникает, когда голос опускается до самого нижнего регистра. И мужчины тоже этим пользуются. В последнее..

Познакомьтесь с этими 7 компаниями, которые меняют то, как мы говорим с машинами 👄🤖

Распознавание речи – это способность устройств реагировать на голосовые команды. Благодаря распознаванию речи вы можете управлять различными устройствами и оборудованием без помощи рук (особенно полезно для людей с ограниченными возможностями), получать ввод для автоматического перевода и создавать готовые к печати диктовки. Мобвой С 2012 года основное внимание Mobvoi уделялось голосовому взаимодействию с искусственным интеллектом и программно-аппаратной интеграции,..

РАСПОЗНАВАНИЕ ЭМОЦИЙ РЕЧИ ПО АКУСТИЧЕСКИМ ПРИЗНАКАМ

Распознавание речевых эмоций (SER) — это процесс определения того, какие эмоции присутствуют в устной речи. За последние несколько десятилетий он превратился в значительную область исследований в области обработки речи, взаимодействия человека с компьютером и компьютерного общения человека. Основное внимание уделяется применению методов машинного обучения для автоматического прогнозирования «правильных» эмоциональных состояний по речи. Знание человеческих эмоций приводит к лучшему пониманию..

Создайте многоязычную систему распознавания речи с помощью высококачественных обучающих данных

Благодаря политике «Один пояс, один путь», ИИ и технологиям облачных вычислений все больше и больше китайских технологических компаний выходят на глобальный уровень. Однако для некоторых компаний, занимающихся искусственным интеллектом, путь за границу по-прежнему сталкивается со многими проблемами. Язык — это одна из проблем, умные продукты, которые могут распознавать местные языки, — мощный инструмент для открытия местного рынка. Из-за различий между языками производителям ИИ..

X-векторы против I-векторов

Ссылка на статью: https://arxiv.org/pdf/1909.06351.pdf Предыдущая работа показала, что i-векторы, хотя и разработаны для распознавания говорящего, могут улучшить автоматическое распознавание речи (ASR), поскольку они фиксируют характеристики говорящего и канала . В частности, x-векторы показали получение современная производительность независимой от текста проверки говорящего . В этой статье мы исследуем, содержит ли встраивание x-вектора, которое обучено исключительно для..

Подведение итогов встречи по компьютерному зрению — февраль 2023 г.

На прошлой неделе Voxel51 провел февраль 2023 года Computer Vision Meetup . В этом сообщении блога вы найдете записи воспроизведения, основные моменты презентаций и вопросы и ответы, а также расписание предстоящих встреч, чтобы вы могли присоединиться к нам на будущем мероприятии. Во-первых, спасибо за голосование за вашу любимую благотворительную организацию! Вместо халявы мы дали участникам Meetup возможность помочь направить наши ежемесячные пожертвования на благотворительные..