Обзор

2022 год был одним из самых захватывающих в области искусственного интеллекта. DALL-E 2 был анонсирован Open AI в апреле и выпущен в закрытом бета-тестировании в июле. Твиттер был наводнен новыми захватывающими изображениями, вытекающими из простых текстовых подсказок. Быстрое проектирование быстро стало модным, и в сентябре Stable Diffusion покорила мир, открыв исходный код аналогичной модели, сделав ее доступной для всех, у кого достаточно вычислительных ресурсов.

Рост Stable Diffusion был ошеломляющим, что легко увидеть на следующих графиках, показывающих скорость его принятия на GitHub.

В более тихой манере усилия по воспроизведению модели CLIP OpenAI также плавно развивались с такими выпусками, как https://github.com/mlfoundations/open_clip, который в некоторых случаях превосходит по производительности своего предшественника.

В области аудио дела обстоят относительно тише, хотя для выпуска крупного релиза проделана большая работа. Riffusion был выпущен вскоре после Stable Diffusion путем точной настройки его на спектрограммах и демонстрации того, что его действительно можно переназначить для генерации звука. С другой стороны, недавно Harmonai выпустил круглосуточный потоковый канал на YouTube, на котором воспроизводится музыка, созданная с помощью диффузионной модели, обученной исключительно на аудио.

https://www.youtube.com/watch?v=kJgxC9d0p50 (теперь доступно на https://www.youtube.com/watch?v=2nzSQ3up1kw)

Тем не менее, цель этого поста — рассказать о внедрении аудио и прогрессе, который мы наблюдаем в этом направлении в 2022 году. работать с лучшими моделями, доступными на момент конкурса NeurIPS в 2021 году.

Тест HEAR

Бенчмарк HEAR пытается ответить на простой вопрос:

Какой подход к встраиванию аудио лучше всего подходит для широкого круга последующих задач в различных повседневных областях без тонкой настройки?

Он собирает множество различных задач в нескольких аудиодоменах, таких как музыка, речь и звуки окружающей среды. Он использует предварительно обученную модель для извлечения функций для конкретной задачи и обучает неглубокий классификатор сверху, чтобы оценить, насколько полезны эти функции для данной задачи, в подходе, очень похожем на трансферное обучение.

Посетите их страницу выделенных задач для получения подробной информации об используемых задачах.

Кандидаты в модели

Среди выбранных кандидатов у нас есть модели, созданные с конкретной целью создания вложений аудио, модели, которые действуют как нейронные кодеки или компрессоры, и, наконец, промежуточные представления в генеративных моделях. В алфавитном порядке:

Аркисаунд

Archtineai, лаборатория искусственного интеллекта с открытым исходным кодом из Швейцарии, выпустила одну из первых моделей генерации аудио с открытым исходным кодом в Интернете по адресу https://github.com/archinetai/audio-diffusion-pytorch. Частью конвейера распространения является автоэнкодер, который может значительно сжимать входной звук. Несколько предварительно обученных автоэнкодеров доступны на https://github.com/archinetai/archisound под очень простым API. Для целей этого поста мы используем модель dmae1d-ATC64-v1.

ХЛОПАТЬ В ЛАДОШИ

Разработчики open-clip, LAION, также работали над созданием сети, похожей на CLIP, но способной понимать связи между текстом и звуком. Их усилия были полностью открыты на GitHub по адресу https://github.com/LAION-AI/CLAP. В настоящее время это модель, обученная на самом большом общедоступном наборе данных аудио с субтитрами, насколько нам известно.

Кодек и SoundStream

Обе эти модели являются нейронными кодеками, выпущенными Facebook (Encodec) и Google (Soundstream) соответственно. Их целью является не обязательно встраивание аудио для последующих задач, а его эффективное сжатие для передачи. Но, как мы знаем, сжатие — это разум, поэтому, возможно, они могут оказаться полезными.

Проблемы

На пути было пару испытаний. Бенчмарк HEAR содержит задачи, в которых требуется детальное представление на уровне временных меток, а также представление всего аудиоклипа.

Это создает разные проблемы для разных моделей. CLAP по умолчанию требует передачи аудио продолжительностью не менее 10 секунд и дополнит любую более короткую продолжительность. Он также обычно не возвращает промежуточные вложения, поэтому потребовалось несколько изменений, чтобы иметь возможность извлекать вложения на уровне меток времени. В то же время мы хотели сохранить возможности слияния для более длинных треков, чтобы реализация была более сложной по сравнению с другими моделями.

С другой стороны, другие модели возвращают только мелкозернистые вложения. Здесь решение для извлечения полного встраивания клипа — взяв среднее значение — гораздо проще реализовать, но, как мы увидим позже, оно далеко от идеального с точки зрения качества.

Более неожиданной проблемой было отсутствие поддержки моделей TF Lite, таких как SoundStream, в наборе для прослушивания, но мы отправим запрос на включение для решения этой проблемы.

Код, использованный для получения результатов, можно найти в этом блокноте в Google Colab. Если у вас есть какие-либо вопросы или предложения, оставьте комментарий или отправьте нам электронное письмо!

Полученные результаты

Мы отобразим результаты в виде гистограммы, показывающей предыдущую лучшую производительность для каждой задачи, а также производительность каждой из выбранных нами моделей. Кроме того, мы показываем производительность openl3, одной из лучших моделей среди конкурентов.

Мы заметили, что CLAP получает новую производительность SOTA на нескольких задачах: FSD50K, ESC-50, Mirdangam Tonic, но очень плохо работает на некоторых задачах, таких как Maestro, NSynth, VoxLingua107. Вполне вероятно, что между тестовыми данными, используемыми тестом Hear, и данными обучения, используемыми CLAP, есть некоторое совпадение, что приводит к новым значениям SOTA для этих двух тестов, поскольку в самой статье также сообщается о числах, которые ниже этого.

Еще одним интересным исключением является автоэнкодер archisound, достигший отличной производительности в задаче Beehive. Она также является лучшей из исследованных моделей по задаче определения высоты тона, но уступает более сложным, таким как FSD50K.

И нейронные аудиокодеки, и автокодировщик archisound плохо справляются с этими более сложными задачами на более длинных аудиоклипах (FSD50K, жанр GTZAN), что позволяет предположить, что простое агрегирование очень мелких вложений с использованием среднего значения не является правильным подходом.

Заключение

Из-за большого количества обучающих данных мы ожидали, что CLAP будет хорошо работать с широким спектром задач, но в этом испытании он не справился. Более того, в то время как нейронные кодеки могут сжимать аудио до битрейта, который ранее считался невозможным, простое использование их в качестве входных данных для других задач не всегда приводит к хорошей производительности. Как предполагают недавние генеративные модели, такие как MusicLM, комбинация высокоуровневого семантического представления, такого как CLAP, и низкоуровневого, такого как нейронные кодеки, является одним из способов продвижения вперед.

Этот пост был написан в начале января, чтобы обобщить прогресс, достигнутый в 2022 году. Однако начало 2023 года было очень насыщенным для звукового ИИ: разные группы выпустили несколько моделей, демонстрирующих преобразование текста в звук, одна из которых основана на обновленная версия автоэнкодера archisound. 2023 год уже начинает выглядеть как один из самых захватывающих в новейшей истории для ИИ-аудио в целом, и вполне вероятно, что это относится и к звуковому представлению.