Почему VGG на основе спектрограмм так популярны?

Я: группы VGG - отстой, потому что они неэффективны с точки зрения вычислений и потому, что они наивно переняли архитектуру компьютерного зрения.

Случайный человек в Интернете: Джорди, возможно, вы ошибаетесь. Люди много используют VGG!

Больше не требуется введение, эта серия постов посвящена этому: я хочу поделиться своими честными мыслями по поводу этого обсуждения, о том, какова роль архитектур глубокого обучения компьютерного зрения в звуковой сфере.

В предыдущем посте я объяснил, что не так с VGG. Другими словами: я перечислил некоторые из причин, почему они отстой. А теперь пора объяснить, почему они зажигают! Почему специалисты по глубокому обучению используют группы VGG, если люди (вроде меня) находят явные доказательства того, что VGG на основе спектрограмм - отстой? Что хорошего в этих моделях?

Сообщение I: Почему VGG на основе спектрограмм - отстой?
Пост II: Почему VGG, основанные на спектрограммах, хороши? [эта почта]
Сообщение III: Что случилось с VGG на основе формы волны?

В этих постах я сосредоточил обсуждение вокруг модели VGG - архитектуры компьютерного зрения, широко используемой исследователями звука. Короче говоря, VGG основаны на глубоком стеке очень маленьких фильтров в сочетании с максимальным объединением (см. Упрощенный рисунок выше).

Если они отстой, почему люди продолжают использовать модели VGG?

Ключи к моему ответу: гибкость модели и импульс, исходящий от сообщества компьютерного зрения.

Гибкость VGG

Аудио CNN могут быть спроектированы с учетом знания предметной области или нет (для получения дополнительной информации см. Эту статью). И, без всякого сомнения, группы VGG на основе спектрограмм не используют в своем дизайне знания звуковой области. Что в этом хорошего?

За счет того, что при разработке не учитываются какие-либо знания предметной области, можно свести к минимуму предположения, что модель по сравнению с проблемой. Это может быть полезно, например, если кто-то не уверен в том, как подойти к задаче.

Помните, что часть игры глубокого обучения заключается в том, чтобы позволить архитектурам свободно обнаруживать функции, что приводит к очень успешным моделям. Если мы специально разрабатываем модель для эффективного изучения тембральных или временных характеристик, мы можем исследовать риск чрезмерного ограничения пространства решений.

Вместо этого группы групп VGG предназначены для того, чтобы делать минимальные предположения о природе сигнала или проблемы, так что любая структура может быть изучена посредством иерархического комбинирования представлений малого контекста. Следовательно, группы VGG исследуют риск быть сверхгибкими аппроксиматорами функций (в отличие от регуляризованных моделей). Вот почему люди используют группы VGG, потому что в некоторых случаях такая гибкость может быть полезной!

Импульс от сообщества компьютерного зрения

К сожалению, во многих случаях люди упрощают следующее: ИИ → глубокое обучение → компьютерное зрение. Явные доказательства этого можно найти в научных центрах по ИИ, где большинство эмпирических результатов собираются путем решения проблем компьютерного зрения с помощью глубоких нейронных сетей.

При условии, что в сфере глубокого обучения явно доминируют исследователи компьютерного зрения, кажется разумным, что для этой цели было разработано много интересных моделей, очень понятных руководств или программных инструментов.

В частности, уроки компьютерного зрения сильно влияют на нашу сферу. Для любого специалиста по глубокому обучению аудио проще (и безопаснее!) Просто следовать одному из этих замечательных онлайн-руководств по компьютерному зрению, чем реализовывать не так хорошо документированную аудио архитектуру. Из-за этого у многих людей появляется модель компьютерного зрения, работающая со «звуковыми изображениями»!

Прямым следствием этого сильного импульса, исходящего от области компьютерного зрения, является то, что многие люди рассматривают VGG как «стандартную CNN», когда они представляют собой просто произвольную конструкцию, отвечающую конкретным потребностям сообщества компьютерного зрения.

Почему это работает? Это могло быть просто потому, что глубокие нейронные сети - очень сильные аппроксиматоры функций. Или потому, что актуальность используемой архитектуры менее важна, если доступно достаточно данных для обучения. Соответственно, вы получите только «5%», изменив VGG на вашу любимую аудио архитектуру.

Хотя ваша модель будет меньше, более понятной и, возможно, будет работать лучше… стоит ли это усилий? Может, нет, потому что мы ленивы. Мы не готовы тратить свое время только на «5%». Возможно, мы можем жить, используя бессмысленную архитектуру. Ведь в конце концов, VGG только «смотрят спектрограммы». Изменение этого не поможет принести мир во всем мире.

Почему VGG на основе спектрограмм так популярны?

Если они отстой, почему люди продолжают использовать модели VGG?

Гибкость VGG

Импульс от сообщества компьютерного зрения

Вопросы по теме