Часто в сценариях с ограниченными данными понимание сцены должно происходить с помощью нескольких наблюдений за временными рядами - будь то аудио, видео или даже радар. Мы делаем это, используя удивительно недооцененный метод, называемый вейвлет-рассеянием.

Вейвлет-рассеяние (или преобразование рассеяния) создает представление, которое инвариантно к вращению / трансляции данных и устойчиво к деформациям ваших данных. Неинформативные вариации в ваших данных отбрасываются - например, аудиосэмпл, сдвинутый по времени на разную величину. Информация для последующих задач, таких как классификация, сохраняется. Вейвлет-рассеяние не требует обучения и отлично работает с небольшим объемом данных.

Его основное вычисление - это свертка, что делает его быстрым и применимым к изображениям и одномерным сигналам. В этой статье мы сосредоточимся на сигналах. Мы проследим результаты сообщества обработки сигналов и свяжем их с современными концепциями машинного обучения. Я показываю, что да, мы можем добиться отличных результатов без обучения, используя 20 образцов. Воссоздайте эксперименты и иллюстрации из этой статьи с помощью записной книжки Colab по этой ссылке.

Вейвлеты

Вейвлет может быть свернут с сигналом в том же смысле, что и фильтры. Я думаю о свертке как о непрерывном аналоге внутренних продуктов, где большая активация (обычно упоминаемая в ML) или вейвлет-коэффициент вызваны сходством между непрерывными объектами. Сворачивая элементы словаря в проверяемый сигнал, мы фиксируем локальные пространственные зависимости.

Свертка - это ключевое вычисление в зарождении глубокого обучения - оно очень быстрое. Реализация вейвлет-рассеяния, используемая в этой статье, вызывает бэкэнд глубокого обучения исключительно для эффективной свертки! Kymatio - отличный пакет Python, созданный увлеченными исследователями, которые реализуют рассеяние вейвлетов с использованием инфраструктуры PyTorch.

Основным строительным блоком вейвлет-рассеяния является вейвлет Морле. Это синусоида с окном Гаусса с глубокими связями со слухом и зрением млекопитающих. Сворачивая вейвлеты ψᵥ, проиндексированные по разным частотным местоположениям v, вейвлет-преобразование x представляет собой набор коэффициентов рассеяния

{ x ψᵥ }ᵥ

Когда у синусоидальной составляющей вейвлета есть место для расширения (синусоида замедляет свои колебания), он разлагает сигнал на декоррелированные масштабы. Это хорошо для выявления частотной структуры сигнала, но делает это в течение более длительного временного диапазона. Следствием этого является то, что более широкое окно Гаусса меняет временное разрешение на повышенное частотное разрешение (само является следствием принципа неопределенности Гейзенберга). На практике важным параметром является ширина окна Гаусса, которое сужается к синусоиде »[М. Коэн 2018] ».

Вейвлет-рассеяние

Исторический контекст вейвлет-рассеяния начинается с преобразования Фурье, канонической техники обработки сигналов. Недостатком фурье-представления является его нестабильность сигнализировать о деформациях на высокой частоте. Для сигнала x, слегка искаженного высокочастотной деформацией в x ̃, их спектрограммы выглядят иначе (большие ‖ FFT (x) -FFT (x ̃ )), даже если они остаются сигналами, подобными человеческому глазу. Эта нестабильность происходит из-за неспособности синусоидальной волны локализовать частотную информацию, поскольку сама синусоида не имеет локализованной поддержки.

Вейвлет-преобразование исправляет это, разлагая сигнал на семейство вейвлетов с различным расширением, где каждый вейвлет имеет локализованную поддержку (в конечном итоге выравнивается, как вейвлет Морле). Результирующее вейвлет-представление локализует высокочастотные компоненты сигнала. Тем не менее, поскольку вейвлет-оператор коммутирует с переводами, результирующее представление становится ковариантным по преобразованию - сдвиг сигнала также приводит к сдвигу его вейвлет-коэффициентов. Это затрудняет сравнение преобразованных сигналов, а инвариантность преобразования является ключом к таким задачам, как классификация. Как добиться того, чтобы представление сигнала Φ (x) было инвариантным к сдвигу, устойчивым при деформациях и предлагало хорошую структурную информацию на всех частотах?

Рассеяние вейвлетов создает сигнал представление Φ (x) с избыточным словарем вейвлетов Морле. Хотя пространство сигналов X может быть действительно многомерным, преобразование формирует метрику ядра над пространством сигналов, вызывая многообразие более низкой размерности. Смотрите Стефан Малла обсуждает многообразную интерпретацию с визуализацией.

Читатели, вероятно, обучили нейронную свёрточную сеть кодировать изображение в скрытое многообразие Z, чей код / ​​латентное представление используется для классификации или обнаружения структуры - и это то, что происходит по аналогии. Вейвлет-рассеяние кодирует набор данных X, где неинформативная изменчивость в X: перемещение, вращение и масштабирование - действие групп - отбрасываются в процессе.

Ключевые преимущества преобразования сигнала на Φ [J. Бруна и С. Маллат, 2013] заключается в том, что

Φ не зависит от трансляции сигналов.

Обозначим через xₜ сигнал, идентичный x, за исключением преобразования во времени, тогда Φ (x) = Φ (xₜ ).

Φ устойчив к деформациям сигнала.

Т.е. Φ является липшицевым по отношению к деформациям - разница между точечным представлением сигнала и его деформированной версией является линейной. Деформация может быть локальным смещением / искажением (или смехотворной величиной искажения, как показано в следующем примере). Для постоянной Липшица C ›0 и поля смещения τ (u), вызывающего деформации, создающие x ̃,

‖Φ (x) - Φ (x ̃) ‖ Cx supᵤ | ∇τ (u) |

Где ‖ x ‖ = ∫ ‖ x (u) ‖² du и supᵤ | ∇τ (u) | - глобальная амплитуда деформации.

Φ не требует обучения.

Априорные значения, вводимые рассеянием вейвлетов, достаточно хороши, поэтому их производительность часто делает обучение излишним; плюс он поставляется с интерпретируемыми функциями и выходами. В сценариях с ограниченными данными, если сопоставимые данные общедоступны, неплохой вариант - направить ваш небольшой набор данных через предварительно обученную модель. Но в сложной ситуации, когда ваш набор данных невелик и уникален, рассмотрите вейвлет-рассеяние как инициализацию для ConvNets и других моделей. Я подозреваю, что будущее «обучения с ограничением данных» будет заключаться в синергизме предопределенных фильтров наряду с изученными фильтрами.

На рисунке ниже показана устойчивость при деформациях. Слева мы применили преобразование рассеяния к голосу говорящего, говорящего «ноль». Представление разброса состоит из коэффициентов, полученных из усреднения / фильтра нижних частот, вейвлетов порядка 1 и вейвлетов порядка 2. Справа. После применения поля смещения, которое в основном маскировало структуру исходного сигнала синусоидой, Φ (x ̃) практически не изменяется; эффект деформации был линеаризован преобразованием Φ.

Сеть свертки. Точечное представление состоит из коэффициентов 0, 1 и 2 порядка, которые генерируются путем составления вейвлетов в различных последовательностях. Составленные вместе несколько вейвлетов фиксируют высокочастотную структуру, например коэффициенты 2-го порядка отображают волновую интерференцию (воспринимаемую как диссонанс в музыке) в сигнале. Теперь мы кратко рассмотрим, как выполняются вычисления (комплексный модуль и фильтр усреднения более подробно описаны в приложении).

На m -м слое набор из n предопределенных вейвлетов {ψᵥ₁,…, ψᵥₙ} сворачивается с коэффициентами из (m-1 ) - ый слой, принадлежащий предыдущему вейвлету ψᵥᵐ⁻¹. Итак, на рисунке выше ряд коэффициентов второго порядка получается в результате свертки с ψᵥ¹ в слое 1, а затем с ψᵥ² в слое 2.

В целом мы обозначаем последовательность вейвлетов как длину M path p = (ψᵥ¹ ,…, ψᵥᴹ). Свернув и взяв комплексный модуль | ⋅ |, обозначим полученное упорядоченное произведение операторов U [v₁, v₂,…, vₘ]. Для пути длиной 2

U[ v₁, v₂ ]x =| |x ∗ ψᵥ₁| ∗ ψᵥ₂|

Чтобы окончательно извлечь коэффициенты, подобные строке на рисунке выше, примените фильтр усреднения φ и назовите его S [v₁, v₂,…, vₘ]:

S[ v₁, v₂ ]x = U[ v₁, v₂ ]x ∗ φ(u)

Начиная с данных x в качестве корневого, набор корневых путей в этом вейвлет-дереве задает Φ (x). На практике путей длиной до 2 достаточно для извлечения всей релевантной частотной информации из естественных данных. Таким образом, отличительным аспектом преобразования рассеяния по сравнению с вейвлет-преобразованием являются коэффициенты второго порядка.

Пример задачи. Применим точечное преобразование к реальному набору данных. Free Spoken Digit Dataset (FSDD) содержит 2000 записей от 4-х выступающих, каждый из которых произносит цифру 50 раз. После свертки с помощью вейвлетов я построил 2D проекцию t-SNE для результирующих коэффициентов большой размерности. Каждая точка представляет собой точечное представление звукового фрагмента Φ (x), раскрашенное классом цифр.

В задачах классификации временных рядов конкурирующие методы включают динамическое преобразование времени, скрытые марковские модели и нейронные модели, такие как LSTM и RNN. Давайте посмотрим, как работает вейвлет-рассеяние даже в условиях крайне ограниченного объема данных. В качестве предварительной обработки мы выполняем Z-нормализацию аудиосэмплов. Затем аудиосэмплы дополняются нулями до одинаковой длины и ~ 20 аудиосэмплов отбрасываются, чтобы обеспечить одинаковые размеры представлений разброса. Продолжая практику не учиться, мы используем 3 ближайших соседа в качестве классификатора. 3NN (Φ (x)) предсказывает i -ю цифру, если по крайней мере 2 соседа, ближайшие к Φ (x ) в обучающем наборе принадлежат цифре i, или ближайший сосед - i (возможность при трехсторонней связи).

Для выборок 1981 года мы обнаружили, что 3-кратная точность классификации составляет 91,5%, а для обучающей выборки из 20 выборок со всеми другими наблюдениями в удерживаемом наборе , мы достигаем 49%. Неплохо, учитывая, что я пробовал только разные значения для гиперпараметра Q (количество вейвлетов на октаву), а другие шкалы оставил в покое. Попробуйте другие значения для параметра масштаба J в прилагаемой записной книжке.

Я закончил с мотивацией вейвлет-рассеяния. На этом этапе мне бы хотелось, чтобы вы начали изучать эту технику самостоятельно, возможно, начиная с моей цифровой записной книжки jupyter. В приложении описаны ключевые свойства, связанные с рассеянием вейвлетов, например, как использовать Φ (x), когда x - изображение, а также практические соображения.

Благодарности. Они говорят, что для создания статьи на Medium требуется команда разработчиков. Это было бы невозможно без исследователей и разработчиков Kymatio, включая Эдуарда, Винсента и Майкла. Я благодарен за возможность объяснить и использовать эту удивительную технологию в Geometric Data Analytics под руководством Пола Бендича в сотрудничестве с государственными учреждениями.

Приложение

Фактически, учитывая путь p = (ψᵥ₁, ψᵥ₂), для извлечения коэффициентов 2-го порядка также требуется комплексный модуль | ᐧ | и фильтр усреднения φ:

S[ v₁, v₂ ]x(u) =||x ∗ ψᵥ₁| ∗ ψᵥ₂|∗ φ(u)

Стефан Маллат объясняет предшественников вейвлет-рассеяния, а затем необходимость комплексного модуля и усредняющего фильтра.

Комплексный модуль - это секрет рассеяния вейвлетов. | ᐧ | - это нелинейность, применяемая к коэффициентам, которая делает их 1) устойчивыми к диффеоморфизмам и 2) устойчивыми в евклидовой метрике L ². Комплексный модуль делает Φ (x) липшицевым по отношению к деформациям. Визуально модуль образует верхнюю оболочку над коэффициентами.

Каждый раз, когда φ применяется к коэффициентам | x ∗ ψᵥ |, мы принимаем удаление высокочастотной составляющей, чтобы локализовать интервал, покрывающий нижний спектр (отбрасывая фазу | x ∗ ψᵥ |). Чтобы сохранить высокочастотную информацию, преобразование рассеяния распространяет высокочастотную информацию дальше по вейвлет-тракту p перед локализацией его отдельного частотного элемента с помощью φ.

Рассеяние вейвлетов для изображений 2D-вейвлеты Морле могут быть свернуты в двух направлениях с данными изображения. В дополнение к параметру растяжения можно вращать двумерные вейвлеты.

Например, исследователи обнаружили, что вейвлет-рассеяние лучше всего подходит для классификации изображений текстуры, где основные препятствия заключаются в нахождении представления, которое инвариантно "масштабирование", перемещение и вращение - как только эти групповые действия выполняются. за исключением процесса генерации сэмплов, классификация текстур проста. Именно эти переменности дисконтируют вейвлет-рассеяние.

Параметризация словаря вейвлетов Когда синусоидальная составляющая вейвлета имеет место для расширения (синусоида замедляет колебания), он разлагает сигнал на декоррелированные масштабы. Это хорошо для выявления частотной структуры сигнала, но делает это в течение более длительного временного диапазона. Следствием этого является то, что более широкое окно Гаусса меняет временное разрешение на повышенное частотное разрешение (само является следствием принципа неопределенности Гейзенберга). На практике важным параметром является ширина окна Гаусса, которое сужается к синусоиде »[М. Коэн 2018] ».

Словарь вейвлетов в этой статье параметризован J, максимальным логарифмическим масштабом и Q, количеством вейвлетов на октаву. Увеличение J меняет временное разрешение на разрешение по частоте за счет увеличения ширины вейвлета в 2 ^ J. Большой J означает «длинный» вейвлет, который испускает меньше вейвлет-коэффициентов, что приводит к более коротким представлениям вейвлета.

Для аудиосигналов часто полезно иметь большое значение Q (от 4 до 16), поскольку эти сигналы часто сильно колеблются и лучше локализуются по частоте, чем по времени. - kymatio tutorial

Для специалистов по обработке сигналов вейвлеты преобразования рассеяния образуют неортогональный избыточный словарь.

Энергия сигнала сохраняется. Состав вейвлет-сверток сохраняет норму сигнала или, по сути, энергию сигнала. Это следует из того факта, что вейвлет-преобразование является сжимающим и обратимым оператором. Энергия в исходном сигнале преобразуется в энергию коэффициентов усредняющим фильтром после каждой свертки на пути. Для базы данных изображений Caltech-101: [J. Bruna and S. Mallat, 2013] показывает, что ~ 99% энергии сигнала было сохранено сетями глубины 3 для любого значения J.