Это введение в UnetSourceSeparation, модель машинного обучения, которую можно использовать с ailia SDK. Вы можете легко использовать эту модель для создания приложений ИИ с помощью ailia SDK, а также многих других готовых к использованию AIlia MODELS.
Обзор
UnetSourceSeparation – это модель разделения звука, выпущенная в марте 2019 года. Она может устранять фоновый шум из входного аудиофайла и извлекать голоса.
Демонстрация UnetSourceSeparation
Официальная демонстрация голосового разделения показана ниже. Исходный голос и обработанный голос воспроизводятся попеременно.
Архитектура
При обработке речи обычно выполняют кратковременное преобразование Фурье (STFT) для входной речи и применяют CNN в частотном пространстве. выход FT (преобразование Фурье) представляет собой комплексное значение, которое состоит из величины и фазы.
Оценка фазы затруднена, и при обычном разделении речи оценивается только величина. Однако, когда Фаза исходного материала используется как есть, нет проблем, когда отношение сигнал-шум (SNR) высокое (низкий шум), но когда SNR низкое (высокий шум), возникает проблема. проблема в том, что шум остается.
В UnetSourceSeparation новый Complex Value Convolution
включает предсказание фазы.
Архитектура UnetSourceSeparation выглядит следующим образом. Входной звук обрабатывается с помощью STFT для получения частотных составляющих, а затем передается через архитектуру Unet с использованием комплексной свертки. Затем он создает маску и использует ее для удаления шума, а затем возвращается к форме сигнала с помощью обратного кратковременного преобразования Фурье (ISTFT).
Набор данных DSD100 используется для обучения.
использование
Учитывая входной аудиофайл, создается выходной аудиофайл. Модель по умолчанию использовала модель шумоподавления для разделения голоса в общей речи.
$ python3 unet_source_separation.py --input WAV_PATH --savepath SAVE_WAV_PATH
Чтобы выполнить извлечение голоса в музыкальной песне, добавьте параметр --arch large
$ python3 unet_source_separation.py --input WAV_PATH --savepath SAVE_WAV_PATH --arch large
Топор Инк. разработал ailia SDK, который обеспечивает кросс-платформенный быстрый вывод на основе графического процессора.
ax Inc. предоставляет широкий спектр услуг от консалтинга и создания моделей до разработки приложений и SDK на основе ИИ. Не стесняйтесь связаться с нами для любого запроса.