Публикации по теме speech-recognition

Публикации по теме 'speech-recognition'

Задача распознавания речи Kaggle Tensorflow

Прогулка по моему подходу С ноября 2017 года по январь 2018 года команда Google Brain провела испытание на распознавание речи на Kaggle . Целью этой задачи было написать программу, которая может правильно идентифицировать одно из 10 слов, произносимых в аудиофайле длиной в одну секунду. Только что решив начать серьезно изучать науку о данных с целью открыть новый поворот в своей карьере, я решил заняться этим как своей первой серьезной проблемой. В этом посте я расскажу о ResNets,..

Как оценивать поставщиков речевых технологий - 4 основных момента

Оценка поставщиков речевых технологий может быть трудной и утомительной. Что вы измеряете? Как вы его измеряете? Часто единицей измерения при оценке поставщиков речевых технологий является коэффициент ошибок по словам (WER), но как насчет языкового охвата, скорости процесса, вариантов развертывания? Конечно, эти меры «точности» также следует учитывать в реальных случаях. Как старший менеджер по продукту в Speechmatics , ведущей компании, занимающейся технологиями речи, я должен..

Google знает, что вы говорите, имея всего 80 МБ

Имея всего 80 МБ, Google перенесла распознавание речи на основе искусственного интеллекта в автономный режим. Он описывается как сквозной, полностью нейронный распознаватель речи на устройстве. Это позволяет пользователю быстрее и надежнее диктовать заметки, электронные письма, текстовые сообщения и голосовой поиск. Новый распознаватель работает на уровне персонажа. Когда вы диктуете, распознаватель речи выводит слова в режиме реального времени, символ за символом, подобно тому, как..

Распознавание эмоций по речи с помощью машинного обучения и глубокого обучения

Человеческое общение посредством разговорной речи является основой для обмена информацией и основным аспектом жизни общества с момента появления первых населенных пунктов. Таким же образом эмоции восходят к изначальному инстинкту, предшествовавшему разговорной речи, который мы знаем сегодня и который можно рассматривать как первую естественную стратегию общения. Суть проекта в обнаружении эмоций, вызываемых говорящим во время разговора. Например, речь, производимая в состоянии..

Краткий обзор статьи «Wav2Vec: неконтролируемая предварительная подготовка для распознавания речи»

Автор: Штеффен Шнайдер, Алекси Баевски, Ронан Коллоберт, Майкл Аули Обзор Неконтролируемая предварительная подготовка для обучения представлению для распознавания речи Мы предварительно обучаем простую многослойную сверточную нейронную сеть, оптимизированную с помощью задачи бинарной классификации с контрастированием по шуму. Эксперименты на WSJ снижают WER базовой линии банка фильтров log-mel на основе сильных символов до 46%, когда доступны только несколько часов расшифрованных..

Платформа распределенного распознавания речи Anryze. Через месяц после окончания Tokensale

Что ж, прошел месяц с момента завершения нашей Tokensale, и я очень хочу сообщить наши последние новости и проинформировать наше сообщество о прогрессе Anryze. Итак, вот оно. Мы протестировали нашу нейронную сеть на различных предприятиях и обнаружили, что ее необходимо обучить еще нескольким наборам данных, поэтому мы купили несколько и собрали некоторые самостоятельно. Эти наборы данных ориентированы на продажи, медицину, юриспруденцию, строительство и т. Д. Для улучшения NN мы..

Понимание и реализация распознавания речи с помощью HMM

Первым шагом в реализации распознавания речи является понимание того, как работают аудиоданные? частота дискретизации Частота дискретизации (или частота дискретизации) - это количество выборок в секунду в звуке. Например: если частота дискретизации составляет 44100 герц, запись длительностью 60 секунд будет содержать 2 646 000 отсчетов. Все аудиофайлы дискретизируются с частотой дискретизации 44100. Чтение аудиофайла Обычно аудиофайлы обрабатываются как волновые файлы, и при..