Публикации по теме speech-recognition

Публикации по теме 'speech-recognition'

Что такое процент ошибок в словах? Измерение WER машинно-генерируемых расшифровок и его ограничения

Индустрия транскрипции сильно изменилась за последние 10 лет. Академические и медицинские фирмы остаются крупнейшими клиентами транскрипции. Однако другие отрасли, такие как финансы, юриспруденция, производство и образование, также составляют значительный процент клиентской базы. Программное обеспечение автоматического распознавания речи (ASR) сделало нашу повседневную жизнь более удобной. Например, Alexa теперь может сказать вам, какая погода будет сегодня. Возможно, как и..

Распознавание речи в реальном времени с использованием Python

Пошаговое руководство по живой транскрипции В этом посте я покажу вам, как преобразовать вашу речь в текст в режиме реального времени с помощью Python. Мы напишем программу, которая понимает, что мы говорим, и переводит это в письменные слова. Этот перевод известен как распознавание речи. Распознавание речи — довольно захватывающая и забавная область для начала работы с машинным обучением и искусственным интеллектом. В своих предыдущих постах я затронул похожие темы, такие как..

МОДЕЛЬ ИИ ДЛЯ ОБНАРУЖЕНИЯ БЕССИМПТОМИЧЕСКОГО КАШЛЯ КОРОНАВИРУСА

ВВЕДЕНИЕ:- Как хорошо сказано, у каждой медали две стороны, так и в случае с COVID-19. С одной стороны, это остановило реальный мир из-за блокировки, но в то же время оно вывело виртуальный мир на новый уровень. Остановка реального мира вынудила людей перейти в виртуальный мир и найти способы продолжить свою работу. Это создало огромные возможности для мира программных технологий, затрагивающие каждого человека в технической сфере, от разработчиков программного обеспечения до..

Обработка естественного языка

«Человеческий язык очень неоднозначен… Он также постоянно меняется и развивается. Люди отлично умеют создавать и понимать язык и могут выражать, воспринимать и интерпретировать очень сложные и нюансированные значения. В то же время, хотя мы, люди, хорошо используем язык, мы также очень плохо формально понимаем и описываем правила, управляющие языком». Что такое НЛП? Обработка естественного языка, сокращенно НЛП, представляет собой автоматизированное манипулирование естественным..

Распознавание речи с использованием CRNN, CTC Loss, Beam Search Decoder и KenLM Scorer

Распознавание речи с использованием CRNN, CTC Loss, DeepSpeech Beam Search Decoder и KenLM Scorer Теория Сегодня тремя наиболее популярными моделями сквозного ASR (автоматического распознавания речи) являются Jasper , Wave2Letter + и Deep Speech 2 . ». Теперь они доступны как часть набора инструментов OpenSeq2Seq от Nvidia. Все эти системы ASR основаны на нейроакустических моделях, которые производят распределение вероятностей Pt (c) по всем целевым символам c..

Введение в мир обработки звука для специалиста по данным

Исходя из опыта НЛП, у меня были трудности с пониманием концепций обработки речи / звука, несмотря на то, что многие лежащие в основе науки и концепции были одинаковыми. Эта серия блогов - попытка облегчить переход для людей, испытывающих аналогичные трудности. В первой части этой серии описывается пространство функций, которое используется в большинстве моделей машинного обучения / глубокого обучения. Пространство функций Это самый запутанный аспект, поскольку большинство..

Обучение элементарной модели верификации оратора с помощью сравнительного обучения

УГЛУБЛЕННЫЙ АНАЛИЗ Обучение элементарной модели верификации оратора с помощью сравнительного обучения Проверка докладчика, глубокое обучение, сравнительное обучение Для компонента группового проекта моего курса разработки Android в университете наша команда создала и развернула систему аутентификации, которая аутентифицируется через голосовой профиль говорящего. Следуя моей предыдущей статье (см. Следующий параграф), в которой описывается высокоуровневая архитектура системы..