Это введение в UnetSourceSeparation, модель машинного обучения, которую можно использовать с ailia SDK. Вы можете легко использовать эту модель для создания приложений ИИ с помощью ailia SDK, а также многих других готовых к использованию AIlia MODELS.

Обзор

UnetSourceSeparation – это модель разделения звука, выпущенная в марте 2019 года. Она может устранять фоновый шум из входного аудиофайла и извлекать голоса.



Демонстрация UnetSourceSeparation

Официальная демонстрация голосового разделения показана ниже. Исходный голос и обработанный голос воспроизводятся попеременно.

Архитектура

При обработке речи обычно выполняют кратковременное преобразование Фурье (STFT) для входной речи и применяют CNN в частотном пространстве. выход FT (преобразование Фурье) представляет собой комплексное значение, которое состоит из величины и фазы.

Оценка фазы затруднена, и при обычном разделении речи оценивается только величина. Однако, когда Фаза исходного материала используется как есть, нет проблем, когда отношение сигнал-шум (SNR) высокое (низкий шум), но когда SNR низкое (высокий шум), возникает проблема. проблема в том, что шум остается.

В UnetSourceSeparation новый Complex Value Convolution включает предсказание фазы.

Архитектура UnetSourceSeparation выглядит следующим образом. Входной звук обрабатывается с помощью STFT для получения частотных составляющих, а затем передается через архитектуру Unet с использованием комплексной свертки. Затем он создает маску и использует ее для удаления шума, а затем возвращается к форме сигнала с помощью обратного кратковременного преобразования Фурье (ISTFT).

Набор данных DSD100 используется для обучения.



использование

Учитывая входной аудиофайл, создается выходной аудиофайл. Модель по умолчанию использовала модель шумоподавления для разделения голоса в общей речи.

$ python3 unet_source_separation.py --input WAV_PATH --savepath SAVE_WAV_PATH

Чтобы выполнить извлечение голоса в музыкальной песне, добавьте параметр --arch large

$ python3 unet_source_separation.py --input WAV_PATH --savepath SAVE_WAV_PATH --arch large


Топор Инк. разработал ailia SDK, который обеспечивает кросс-платформенный быстрый вывод на основе графического процессора.

ax Inc. предоставляет широкий спектр услуг от консалтинга и создания моделей до разработки приложений и SDK на основе ИИ. Не стесняйтесь связаться с нами для любого запроса.