Публикации по теме 'speaker-recognition'
Распознавание говорящего из аудио
Переход от текста к аудио
В своей предыдущей работе я сосредоточился на моделях текстового машинного обучения (ML), таких как распознавание именованных сущностей (NER), классификация намерений и тематическое моделирование. Я готовлю новую серию блогов на темы, связанные с акустикой. Это первый пост из этой серии, поэтому я попытаюсь проиллюстрировать общий ландшафт акустической области с помощью одного из классических…
Постройте диаризацию динамика с помощью pyplot
Диаризация говорящего — это задача определения времени начала и окончания выступления говорящего в аудиофайле. Существует множество облачных сервисов и алгоритмов глубокого обучения, используемых для диаризизации, в этой статье мы построим некоторый график для представления диаризации с помощью pyplot.
Входные данные: аудиофайл с несколькими динамиками и файл npz с метками.
Вывод: график pyplot, как показано выше.
Давайте построим это вместе, давайте сначала загрузим данные..