Публикации по теме 'audio-processing'


Создание приложения для глубокого обучения, рассказывающего, на какую знаменитость похож ваш голос
В этом уроке я покажу вам, как создать приложение на основе глубокого обучения, которое сможет найти знаменитостей с наиболее похожим голосом на ваш. Главная идея Мы создадим базу данных векторных представлений аудиовыдержек из интервью известных людей и знаменитостей. Такие представления будут получены путем кодирования исходных «сырых» аудиозаписей с помощью глубокой нейронной сети. Далее, когда пользователь записывает свой голос в качестве входных данных, эта запись также будет..

Распознавание разговорного языка в Mozilla Common Voice — Часть I.
Одной из самых сложных задач ИИ является определение языка говорящего с целью последующего преобразования речи в текст. Эта проблема может возникнуть, например, когда люди, живущие в одном доме и говорящие на разных языках, используют одно и то же устройство голосового управления, такое как гаражный замок или систему «умный дом». В этой серии статей мы попытаемся максимально повысить точность распознавания разговорной речи, используя набор данных Mozilla Common Voice (MCV). В..

Введение в мир обработки звука для специалиста по данным
Исходя из опыта НЛП, у меня были трудности с пониманием концепций обработки речи / звука, несмотря на то, что многие лежащие в основе науки и концепции были одинаковыми. Эта серия блогов - попытка облегчить переход для людей, испытывающих аналогичные трудности. В первой части этой серии описывается пространство функций, которое используется в большинстве моделей машинного обучения / глубокого обучения. Пространство функций Это самый запутанный аспект, поскольку большинство..

Сравнение функций мгновенной частоты и спектрограммы для анализа звука
Представление аудиосигнала Во-первых, давайте попробуем понять, как представлен звуковой сигнал. Аудиосигнал состоит из различных синусоидальных составляющих, которые математически можно представить следующим образом: где x(t): сигнал, r(t): амплитуда и Theta(t): фаза синусоидальной составляющей сигнала. Амплитудно-временное представление звукового сигнала можно проиллюстрировать следующим образом: Характеристики спектрограммы звукового сигнала Это визуальное..

Добавление шума к аудиоклипам
В этой статье обсуждается, как добавить шум к аудиоданным (или любым другим данным). Это может быть важно для многих приложений, таких как оценка производительности моделей машинного обучения. Например, на модель глубокого обучения, которая классифицирует аудиоданные, может влиять шум. Таким образом, мы можем изменить исходные образцы сигнала шумами с различным соотношением сигнал / шум и оценить производительность модели в этих шумных условиях. Чтобы прочитать аудио .wav в массив из..

Вопросы по теме 'audio-processing'

Серверная платформа для обработки звука
Я пытаюсь создать сервер для обработки звука из входящего UDP-соединения. Мне нужно иметь возможность делать такие вещи, как изменение частоты входящего потока (вероятно, .wav), амплитуды, сдвига во времени и т. д., а затем возвращать вывод обратно в...
203 просмотров
schedule 05.02.2023

Как сравнить разговорный звук с эталонной записью - изучение языка
Я ищу способ сравнить представленную пользователем аудиозапись с эталонной записью для сравнения, чтобы дать кому-то оценку или процент за изучение языка. Я понимаю, что это очень ненаучный способ делать вещи и больше, чем уловка, чем что-либо еще....
766 просмотров

Чтение необработанных образцов PCM из файла MP3 с использованием QtMultimedia?
Есть ли способ использовать QtMultimedia для доступа к образцам необработанного звука PCM файлов MP3, хранящихся, скажем, в телефоне Nokia N950? Если это невозможно, что было бы разумной альтернативой. Что-то, что можно было бы достаточно легко...
1375 просмотров
schedule 19.01.2023

Как лучше всего определить громкость сигнала?
Я хочу определить громкость аудиосигнала. Я нашел два варианта: Вычислить среднеквадратичное значение амплитуды найти максимальную амплитуду Есть ли преимущества в использовании № 1 или № 2? Вот что я пытаюсь сделать: я хочу, чтобы...
2357 просмотров
schedule 29.04.2022

Эффект Android Audio в файле wav и сохраните его
Требование Android открывает файл .wav на SD-карте, воспроизводит его, добавляет некоторые эффекты (например, эхо, сдвиг высоты тона и т. д.), сохраняет файл с эффектом. Простой :( Что я знаю Я могу открыть и воспроизвести файл с помощью...
5332 просмотров

Использование Mutagen для обработки всех допустимых типов файлов
Что мне нужно сделать, чтобы обработать все типы файлов, принимаемые мутагеном, .ogg, .apev2, .wma, flac, mp4 и asf? (Я исключил mp3, потому что на него больше всего документации) Я был бы признателен, если бы кто-то, кто знает, как это делается,...
3854 просмотров

Разница между фреймами и элементами в libsndfile?
Я пишу программное обеспечение, которое обрабатывает аудиофайлы. Я использую библиотеку libsndfile для чтения данных волновых файлов и столкнулся с сомнением, которое не было разрешено их документацией: в чем разница между функциями, считывающими...
754 просмотров
schedule 21.12.2023

Генерация тона в Java и изменение его тембра?
Я хочу создать программу на Java, которая может генерировать заметку и изменять ее тембр и высоту звука во время ее воспроизведения. Я хочу изменить тембр с помощью чисел, чтобы можно было плавно переходить от одного тембра к другому, и то же самое...
580 просмотров
schedule 16.08.2022

Инициализируйте импульсную характеристику помещения, используя время реверберации (T60)
Я делаю дереверберацию речи, используя неотрицательную матричную факторизацию. Чтобы быть точным, я работаю над этой статьей Насера ​​(paris.cs.illinois.edu/pubs/nasser-icassp2015.pdf), которая включает в себя получение оптимального решения для...
628 просмотров

Определить количество отсчетов в аудиобуфере
Я пишу небольшую программу для удаления окружающего шума в реальном времени с помощью PortAudio. Чтобы выполнить некоторые из необходимых вычислений (например, преобразования Фурье), мне нужно предоставить образцы данных, но мне также нужно точно...
819 просмотров
schedule 16.04.2022

инструмент обработки звука в реальном времени на C++
Я пытаюсь записать и рассчитать его спектр в режиме реального времени. Интересно, какую библиотеку я должен использовать для этой цели. Мне нужно интегрировать его в мой исходный код C++ и объединить с моей функцией изображения. Я посмотрел в...
794 просмотров
schedule 19.12.2022

Патч Pd для аудиоанализа
Я работаю над механизмом управления DMX на основе Arduino. Оказывается, мне нужна помощь Pure Data. Я всего 4 дня знаком с Pd и поэтому ожидаю помощи отсюда. В Pd я хочу получить звук из системного динамика (или микрофона), проанализировать его...
569 просмотров
schedule 21.06.2022

Как я могу получить необработанные аудиокадры с микрофона в режиме реального времени или из сохраненного аудиофайла в iOS?
Я пытаюсь извлечь векторы MFCC из аудиосигнала в качестве входных данных для рекуррентной нейронной сети. Однако мне трудно понять, как получить необработанные аудиокадры в Swift с помощью Core Audio. Предположительно, чтобы получить эти данные, мне...
1970 просмотров
schedule 28.10.2022

Неправильная длина аудиофайла на графике и неправильно наложенные сегменты аннотаций на аудиографике в python
Я следую этому руководству ( https://github.com/amsehili/audio-segmentation-by-classification-tutorial/blob/master/multiclass_audio_segmentation.ipynb ) и пытаюсь воссоздать выходные данные визуализации, используя собственные обучающие данные и...
152 просмотров
schedule 21.10.2022

Найдите самую доминирующую звуковую частоту в образце
Я пытаюсь создать проект, который загружает аудиофайл в прямом эфире из Интернета и постоянно сэмплирует звук в поисках наиболее доминирующей частоты в течение заданного периода времени. Идея состоит в том, что если он обнаруживает частоту, скажем,...
665 просмотров

Звук искажается после умножения частотного спектра на постоянную
Я делаю простой звуковой эквалайзер, который работает в частотной области и позволяет пользователю регулировать частоты звука с помощью 4 ползунков. Первый отвечает за 0 - 5кГц, четвертый за 15-20кГц. Шаги следующие: Я читаю wav-файл и...
190 просмотров

-shortest не работает при зацикливании аудио с анимацией в FFMPEG
Здесь вводятся два видео общей продолжительностью 40 секунд, я объединяю их и ускоряю в 4 раза, тогда продолжительность видео составляет 10 секунд, продолжительность аудиовхода является динамической, она будет короче, чем видео, или больше, чем...
591 просмотров

Как реализовать КИХ-фильтр верхних частот в Python?
Прежде всего, я задал этот вопрос в Stack Exchange, и я получаю только ответы, связанные с концепцией, а не ориентированные на реализацию. Итак, моя проблема в том, что я пытаюсь создать фильтр верхних частот, и я реализовал его с помощью Python....
1679 просмотров

Соедините два аудиофайла с помощью Python, чтобы получить перекрывающийся звук
У меня есть два аудиофайла, и я хочу сравнить файлы друг с другом в python3. Вот пример двух аудиофайлов с частотой по оси x: Аудио А Аудио Б Знаете ли вы, как создать новый аудиофайл, содержащий только перекрывающиеся частоты? (Можно...
82 просмотров

Как автоматически извлечь диапазон высоты тона из файлов .wav в PRAAT и поместить их все в файл .csv?
Я использую PRAAT, и мне нужно извлечь диапазоны высоты тона. Мои аудиофайлы все меньше 2 секунд, и у меня их дюжина. Я знаю только, что нужно получить информацию, когда я нажимаю «На данный момент я вручную извлекаю диапазон высоты тона (Запрос>...
146 просмотров