Эта работа является частью инициативы «ИИ без границ».

Соавторы: Чинмей Патхак, Кевин Гарда, Гагана Б, Тони Холдройд, Дэниел Дж. Броз.

О CAM читайте здесь.

Градиенты в нейронных сетях относятся к векторам, величина которых является частной производной функции f (x) и направлена ​​на максимальную скорость увеличения этой функции. Основываясь на этой информации, проходящей через общую сверточную сеть, Grad-CAM использует особенности класса для создания карт локализации значимых областей изображения, что делает модели черного ящика более прозрачными, путем отображения визуализаций, поддерживающих прогнозы вывода. Другими словами, Grad-CAM объединяет визуализацию градиента пространства пикселей с отличительным свойством класса.

Предположение модели Grad-CAM состоит в том, что окончательная оценка, как описано ниже, всегда может быть выражена как обобщенная линейная комбинация объединенных средних карт характеристик, которая зависит от следующих параметров: веса для конкретной карты характеристик, количества пикселей в активации. карта и т. д.

Окончательная сверточная карта признаков входного изображения активируется для разных каналов по классу. То есть взвешивание каждого канала в функции с градиентом класса по отношению к этому каналу. Глобальное среднее объединение по двум измерениям (i, j) для градиента выходных данных соответствующего класса по отношению к карте признаков является пространственной оценкой конкретного класса. Полученное значение умножается на карту характеристик вдоль оси канала k, и результат складывается по размеру канала. Таким образом, карта пространственных оценок имеет размер i * j, который нормализован для положительных предсказаний области с использованием нелинейного преобразования ReLU. Оценка для класса k напрямую коррелирует с важностью карты значимости конкретного класса, которая, следовательно, влияет на окончательный результат прогноза.

Grad-CAM в сочетании с существующими визуализациями пиксельного пространства для создания отличительной визуализации высокого разрешения называется Guided Grad-CAM. Они вместе используются для решения различных задач классификации изображений и визуальных ответов на вопросы. Guided Grad-CAM обладает врожденной способностью локализовать даже небольшие объекты. Алгоритм обратного распространения в варианте Guided Grad-CAM, в котором обратный проход RELU модифицирован для передачи только положительных градиентов в положительно активированные области, не только улучшает способность к локализации, но также снижает различительную способность класса Grad-CAM. В частности, в пространстве подписи к изображению алгоритм управляемого обратного распространения помогает получить грубую локализацию вместе с областями выделения визуализации с высоким разрешением, которые поддерживают сгенерированную подпись.

Архитектура показана ниже.

Подход:

В Grad-CAM мы хотим сохранить информацию о пространственном местоположении объекта, которая теряется в полностью связанном слое. Таким образом, используется последний слой свертки, так как нейроны идентифицируют части, специфичные для этого класса.

Чтобы получить GradCam шириной u и высотой v для любого класса c, мы сначала вычисляем градиент оценки для класса c, yc (до softmax) относительно карт характеристик Ak сверточного слоя, то есть ∂yc / ∂ Ак

После получения этих градиентов следующее уравнение подчеркивает важность каждой карты характеристик k для конкретных классов с использованием метода объединения глобального среднего:

Где суммирование по i и j относится к глобальному среднему объединению, а частные дифференциалы относятся к градиентам обратного распространения.

Затем мы выполняем взвешенную комбинацию карт прямой активации, за которыми следует ReLU.

ReLU является предпочтительным выбором в этом случае, поскольку он подчеркивает особенности, оказывающие положительное влияние на интересующий класс. Интересующие области неявно относятся к тем пикселям, интенсивность которых напрямую зависит от градиента yc. Замечено, что без использования ReLU карты локализации иногда могут включать больше информации, чем желаемый класс, например, отрицательные пиксели, которые, вероятно, принадлежат к другим категориям изображения, что влияет на производительность локализации.

Оценка класса для конкретного класса c рассчитывается как:

Это основано на изменении порядка суммирования оценок класса, полученных для CAM, для получения Lcam.

Grad-CAM можно рассматривать как один из начальных шагов в более широкой картине интерпретируемого или объяснимого ИИ, поскольку визуализации дают представление о неудачах и помогают выявить предвзятость, превосходя предыдущие тесты. Это обобщение алгоритма CAM также является эффективным способом обхода проблем алгоритма обратного распространения, когда субдискретизированные карты релевантности подвергаются повышающей дискретизации для получения приблизительной тепловой карты релевантности. В отличие от CAM, Grad-CAM не требует переобучения и широко применяется к различным архитектурам CNN, включая полностью связанные уровни, такие как VGGNet, CNN со структурированным выходом, CNN с многомодельными выходами или обучение с подкреплением.

Недостатки

К недостаткам Grad-CAM относятся невозможность локализовать множественные вхождения объекта на изображении и неточная локализация тепловой карты со ссылкой на охват области класса из-за предпосылки частных производных. Непрерывные процессы повышения и понижения дискретизации также могут привести к потере сигнала.

Использованная литература:

1. http://www.hackevolve.com/where-cnn-is-looking-grad-cam/

2. http://blog.qure.ai/notes/deep-learning-visualization-gradient-based-methods

3. https://arxiv.org/pdf/1610.02391.pdf