Авторы: Ульяна Ткаченко, Джонас Мюллер, Кертис Г. Норткатт

Любой, кто пытался обучать модели ML на реальных наборах данных (а не на идеально подобранных данных, с которыми мы работаем в школе), вероятно, имел дело с выбросами в данных. Проблема с большинством алгоритмов обнаружения выбросов и вне распределения (OOD) заключается в том, что они делают большое предположение — что модель одинаково надежна во всех классах — в большинстве случаев это большое предположение ложно. Например, модель, обученная в ImageNet, обычно слишком самоуверенна (прогнозируемые вероятности близки к 1) для bananas, но недостаточно уверена (прогнозируемые вероятности близки к 0) для десяти разных, но очень похожих классов lizard в наборе данных.

В этой статье я покажу вам новую и простую настройку предсказанных вероятностей модели, которая может улучшить обнаружение OOD с помощью моделей, обученных на реальных данных. Представленный здесь впервые, этот уникальный подход основан на теории и выполняется всего в паре строк кода.

Фон

Выявление выбросов в тестовых данных, которые не связаны с распределением обучающих данных, имеет решающее значение для развертывания надежных моделей машинного обучения. Хотя для этой задачи обнаружения выхода за пределы распределения (аномалии/новинки) было предложено множество специальных (например, генеративных) моделей¹ ² ³, они часто специфичны для конкретных типов данных и нетривиальны в реализации. Вместо этого довольно популярными стали более простые методы обнаружения OOD, в которых используется уже обученный классификатор данных с метками классов⁴⁶. Такие методы, как расстояние KNN⁵ ⁷ и расстояние Махаланобиса³ ⁴, используют представления промежуточных признаков обученной нейронной сети для определения примеров OOD.

Еще более простой подход заключается в использовании только предсказанных вероятностей классов, выдаваемых обученным классификатором, и количественной оценке их неопределенности в качестве меры отклонения. Двумя особенно популярными методами OOD являются максимальная вероятность Softmax (MSP)⁶ или энтропия⁴⁵. По сравнению с большинством других методов MSP и Entropy требуют меньше информации от модели и требуют меньше вычислений для выявления выбросов. Здесь мы представляем простое улучшение этих базовых методов, чтобы повысить их эффективность.

Методы обнаружения OOD, основанные на базовом прогнозировании

Рассмотрим изображение x и модель классификатора p = h(x), где p — это предсказанный моделью вектор вероятности того, что это изображение принадлежит каждому классу k ∈ {1,…,K}. На основе p можно вычислить две простые оценки OOD для x.

Максимальная вероятность Softmax (MSP) — количественно определяет, насколько уверенно модель относится к наиболее вероятному классу, который она предсказывает:

Энтропия — количественно определяет, насколько равномерно распределены вероятностные прогнозы модели среди всех K классов:

Было показано, что эти оценки работают на удивление хорошо для обнаружения изображений OOD⁶, несмотря на то, что они явно не оценивают эпистемическую неопределенность⁴.

Простая корректировка для улучшения базовых методов

Вероятности, предсказанные моделью p, подвержены ошибкам оценки. Обученные модели могут предвзято предсказывать определенные классы по сравнению с другими, особенно когда классы в исходном наборе данных несбалансированы. Чтобы учесть эти проблемы, мы корректируем прогнозируемые вероятности с помощью достоверных порогов класса¹⁴, формируя новые оценки OOD на основе MSP/энтропии полученных скорректированных прогнозов.

Вычисление порогов достоверности для класса

Пусть yᵢ обозначает метку класса для i-го примера в наших обучающих данных, а pᵢₖ обозначает вероятность того, что этот пример xᵢ принадлежит классу k в соответствии с нашей моделью, мы вычисляем доверительный пороговыйвектор, k- элемент определяется как:

Пороги достоверности — это средняя вероятность класса, предсказанного нашей моделью, среди примеров, помеченных как этот класс. Таким образом, этот вектор представляет склонность нашей модели предсказывать конкретный класс для примеров, помеченных как этот класс, и было доказано, что он является естественным порогом для определения надежности вероятностных прогнозов¹⁴.

Корректировка предсказанных моделей вероятностей для шума

Для любого нового примера x его прогнозируемый вектор вероятности p = h(x) впоследствии корректируется доверительным порогом класса следующим образом:

Здесь cࠡ — наибольшее значение в векторе достоверных порогов (чтобы обеспечить неотрицательность вероятностей), а Z — нормирующая константа (чтобы сумма вероятностей по классам была равна единице):

Важно отметить, что при уверенных порогах вектор c всегда рассчитывается с использованием предсказанных поездом вероятностей и меток. Любые предсказанные вероятности выходных данных модели (т. е. для дополнительных тестовых данных) могут быть скорректированы с использованием этих пороговых значений.

Вычисление скорректированных оценок OOD

Улучшенные оценки OOD для x достигаются просто путем подстановки скорректированных предсказанных вероятностей вместо p в любую из соответствующих формул MSP/энтропии. Таким образом, эта скорректированная процедура обнаружения OOD остается чрезвычайно простой и легко реализуемой на практике.

Сравнительный анализ производительности

В соответствии со стандартными процедурами сравнительного анализа OOD существующие наборы данных классификации изображений группируются в пары, где: один набор данных используется для обучения классификатора Swin Transformer⁸ и считается данными обучения в распределении, а примеры из второго набора данных смешиваются с данными тестирования первого набор данных (в соотношении 50–50) как изображения вне распространения. Каждый метод оценки OOD применяется ко всем изображениям в тестовом наборе (без знания их источника или их меток) для ранжирования этих изображений, которое мы оцениваем с помощью AUROC на предмет того, насколько хорошо эти оценки обнаруживают примеры OOD.

Мы рассматриваем 2 разные проблемы обнаружения OOD на основе популярных наборов данных классификации изображений: CIFAR-10⁵ против CIFAR-100⁵ и MNIST⁶ против FASHION-MNIST⁷. Наш первый эталонный тест основан на исходных версиях этих наборов данных, где классы естественным образом встречаются в равных пропорциях.

Мы также запускаем второй тест, в котором мы вводим дисбаланс классов в каждом тренировочном наборе. Здесь мы создаем новые несбалансированные обучающие наборы для CIFAR-10, MNIST и FASHION-MNIST, где в каждом обучающем наборе: 6 классов содержат по 2% от общего числа примеров и 4 класса содержат по 22% примеров. Мы также создаем несбалансированную обучающую выборку для CIFAR-100, в которой 90 классов имеют по 0,63% примеров, а 10 классов имеют по 4,25% примеров. Это позволяет нам оценить, насколько хорошо наши оценки OOD работают в условиях, когда классы встречаются в неравных пропорциях в размеченных обучающих данных, как это часто бывает в реальных приложениях.

Улучшенные результаты метода базовой линии

В таблицах 1 и 2 перечислены показатели AUROC, достигнутые как скорректированными, так и исходными (нескорректированными) методами оценки OOD для каждой настройки эталона. Для многих пар наборов данных «в дистрибуции» и «OOD» наблюдается явное улучшение, являющееся результатом предлагаемой нами корректировки.

С помощью лишь незначительной корректировки предсказанных вероятностей, выводимых обученным классификатором, производительность оценок обнаружения вне распределения как на основе энтропии, так и на основе MSP повышается.

Код для запуска этого метода OOD на любом наборе данных доступен здесь.

Рекомендации

[1] Ян, Дж., Чжоу, К., Ли, Ю., и Лю, З. Обобщенное обнаружение вне распределения: обзор. arXiv:2110.11334. 2021.

[2] Ran, X., Xu, M., Mei, L., Xu Q. и Liu Q. Обнаружение выборок вне распределения с помощью вариационного автокодера с надежной оценкой неопределенности. Нейронные сети. 2022.

[3] Цао, С., и Чжан, З. Глубокие гибридные модели для обнаружения вне распределения. Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов. 2022.

[4] Кирш, А., Мухоти, Дж., ван Амерсфорт, Дж., Торр, П. Х. С., и Гал, Ю. О ловушках при обнаружении OOD: энтропия считается вредной. Семинар ICML по неопределенности и надежности в глубоком обучении. 2021.

[5] Куан, Дж., и Мюллер, Дж. Назад к основам: пересмотр базовых показателей обнаружения отсутствия распространения. Семинар ICML по принципам переключения дистрибуции. 2022 г.

[6] Хендрикс, Д. и Гимпел, К. Базовый уровень для обнаружения неправильно классифицированных и нераспространяемых примеров в нейронных сетях. На Международной конференции по образовательным представлениям, 2017 г.

[7] Ангиулли, Ф. и Пиццути, К. Быстрое обнаружение выбросов в многомерных пространствах. На европейской конференции по принципам интеллектуального анализа данных и обнаружения знаний, 2002 г.

[8] Ли, К., Ли, К., Ли, Х., и Шин, Дж. Простая унифицированная структура для обнаружения не распространяемых образцов и состязательных атак. Достижения в области нейронных систем обработки информации, 31, 2018.

[9] Форт, С., Рен, Дж., и Лакшминараянан, Б. Изучение пределов обнаружения вне распределения. Достижения в области систем обработки нейронной информации, 34, 2021.

[10] Крижевский, А. Изучение нескольких слоев признаков из крошечных изображений. 2009.

[11] Денг, Л. База данных mnist рукописных цифровых изображений для исследований в области машинного обучения. Журнал обработки сигналов IEEE, 29(6):141–142, 2012 г.

[12] Xiao, H., Rasul, K., и Vollgraf, R. Fashion-mnist: новый набор данных изображений для сравнительного анализа алгоритмов машинного обучения. Препринт arXiv arXiv: 1708.07747, 2017.

[13] Лю, З., Линь, Ю., Цао, Ю., Ху, Х., Вэй, Ю., Чжан, З., Линь, С. и Го, Б. Преобразователь Суина: Иерархический преобразователь зрения с использованием сдвинутые окна. В материалах Международной конференции IEEE/CVF по компьютерному зрению, 2021 г.

[14] Норткатт С., Цзян Л., Чуанг И. Уверенное обучение: оценка неопределенности в метках наборов данных. Журнал исследований искусственного интеллекта. 2021.