Публикации по теме 'speaker-recognition'


Распознавание говорящего из аудио
Переход от текста к аудио В своей предыдущей работе я сосредоточился на моделях текстового машинного обучения (ML), таких как распознавание именованных сущностей (NER), классификация намерений и тематическое моделирование. Я готовлю новую серию блогов на темы, связанные с акустикой. Это первый пост из этой серии, поэтому я попытаюсь проиллюстрировать общий ландшафт акустической области с помощью одного из классических…

Постройте диаризацию динамика с помощью pyplot
Диаризация говорящего — это задача определения времени начала и окончания выступления говорящего в аудиофайле. Существует множество облачных сервисов и алгоритмов глубокого обучения, используемых для диаризизации, в этой статье мы построим некоторый график для представления диаризации с помощью pyplot. Входные данные: аудиофайл с несколькими динамиками и файл npz с метками. Вывод: график pyplot, как показано выше. Давайте построим это вместе, давайте сначала загрузим данные..