Резюме статьи [Глубокая детерминированная неопределенность для семантической сегментации]

Обратите внимание, что этот пост для моего вероятного исследования в будущем, чтобы оглянуться назад и просмотреть материалы по этой теме, не читая бумагу полностью.

Глубокая детерминированная неопределенность (DDU) позволяет вычислять и разделять алеаторическую и алеаторическую неопределенность в модели. При этом основное внимание уделяется знакомству с представлениями признаков пикселей в разных местах для одного и того же класса. Делается вывод о возможности независимого использования местоположений DDU. Этот DDU приведет к значительному сокращению потребления памяти по сравнению с пикселями, зависящими от пикселей. Исследователи использовали архитектуру DeepLab-v3+ и применили ее к Pascal VOC 2012, чтобы продемонстрировать свои улучшения в MC Dropout и Deep Ensembles.

введение

В дополнение к прогнозированию при развертывании моделей глубокого обучения надежность неопределенности имеет решающее значение для приложений, критически важных для безопасности (например, автономное вождение, медицинская диагностика и т. д.). По этому вопросу было предложено множество методов, требующих нескольких проходов вперед по модели.

Существует несколько методов получения неопределенности при прямом проходе, например DUQ и ANP; однако, хотя эти два метода подходят, они требуют всесторонних изменений в структуре и настройке обучения с дополнительными гиперпараметрами, которые необходимо точно настроить.

DDU:

может использовать пространственную плотность объектов с соответствующими индуктивными смещениями
предотвращает проблему коллапса функции

Из-за коллапса признаков выборки (которые находятся вне распределения (OoD)) сопоставляются с областями распределения в пространстве признаков, что делает модель чрезмерно уверенной в входных данных. Поэтому необходимы правильные индуктивные смещения модели, чтобы учесть неопределенность в плотности пространства признаков.

Существует два типа неопределенности:

эпистемическая неопределенность:
*фиксирует, какой режим не знает
* высокий для невидимого или OoD входы и могут быть уменьшены за счет большего количества обучающих данных
алеаторическая неопределенность
*улавливает неоднозначность и шум наблюдения в выборках распределения

В этом исследовании используется DDU для семантической сегментации, чтобы генерировать выходные данные того же измерения, что и классифицированные входные данные. Причина выбора семантической сегментации заключается в том, что она хороша при дисбалансе классов.

DDU в семантической сегментации

Краткое введение в DDU:

Когда мы обучили модель (с билипшицевым ограничением), мы можем вычислить средние значения пространства признаков и ковариации для каждого класса, используя один проход по всем обучающим выборкам. Эти два будут использоваться для соответствия гауссовскому дискриминантному анализу (GDA).

Пиксельно-независимые классовые средние значения и ковариации:

К каждому пикселю привязано собственное предсказание и соответствующее распределение в семантической сегментации. В этом исследовании мы можем вычислить средние значения и ковариационные матрицы без необходимости использования пикселей, как и в многоклассовой классификации.

На этом рисунке авторы нанесли расстояния L2 между средними пространств признаков всех пар. В результате средства одного и того же класса намного ближе друг к другу по сравнению с другими классами. Разумно, что ядро свертки является общим для всего представления пространства признаков.

Вычисление плотности объектов:

Авторы установили GDA, предполагая, что пиксели будут автономными выборками. Одновременно выполняются два действия:

Были получены одно среднее значение и одна ковариация на класс (не пиксель), а затем был применен GDA.
Получена энтропия softmax для каждого пикселя из модели.

Следовательно, авторы могли устранить алеаторическую и эпистемическую неопределенность с помощью единой детерминистической модели семантической сегментации. Это видно из рисунка ниже:

Эксперименты

Чтобы оценить надежность DDU при семантической сегментации, исследователи используют набор данных Pascal VOC и сравнивают его с тремя другими базовыми уровнями неопределенности (энтропия softmax, MC Dropout и Deep Ensembles).

Архитектура и настройка обучения:

Гиперпраметры, используемые для этого исследования, можно описать следующим образом:

эпох = 50
оптимизатор = SGD (импульс = 0,9 и уменьшение веса = 5e-4)
lr = 0.007

Базовые показатели и показатели неопределенности:

Метрики для оценки:

Для оценки каждого метода авторы использовали p(точно — достоверно), p(неопределенно — неточно) и PAPU, которые можно проиллюстрировать следующим образом:

p(accurate — Certain):вероятность того, что прогноз будет точным при условии, что модель уверена в прогнозе.
p(uncertain — inaccurate): вероятность того, что модель окажется неточной из-за неточных прогнозов.
PAPU:вероятность того, что модель уверена в точном прогнозе или не уверена в неточном.

Эти три могут быть визуализированы, как показано ниже:

Оценку неопределенности для четырех выборок можно визуализировать следующим образом:

Оценка точности проверочного набора Pascal VOC 2012 и время, необходимое для этого, представлены в таблице ниже:

Примечание. Один прямой проход для:

MC Dropout: включает 5 стохастических проходов вперед.
ансамбль: он получает прогнозы от 3 компонентов ансамбля.

Наблюдение:

Время выполнения DDU и обычного softmax лучше, чем у других. (Таблица 1)
DDU имеет более высокие значения по всем трем показателям. (Рисунок 3)
Плотность признаков DDU фиксирует эпистемическую неопределенность, тогда как энтропия softmax фиксирует алеаторическую неопределенность. (Рисунок 4)

Заключение:

В конце концов мы обнаружили, что DDU может хорошо выполнять задачи семантической сегментации с архитектурой FCNN. Он может работать независимо от пикселя.

Делается вывод, что DDU действовал лучше, чем другие аналогичные модели.

Примечание. Возможно, сдерживание неопределенности в глубоком/машинном обучении поможет нам отладить модели и сделать их более надежными.

Если обнаружены какие-либо ошибки, напишите мне по адресу [email protected]. А пока следите за мной в моем Твиттере здесь и посетите мой LinkedIn здесь». Наконец, если у вас есть идея или совет, я открыт для этого, вам просто нужно написать мне в LinkedIn. 🙂

Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com