Авторы: Ульяна Ткаченко, Джонас Мюллер, Кертис Г. Норткатт
Любой, кто пытался обучать модели ML на реальных наборах данных (а не на идеально подобранных данных, с которыми мы работаем в школе), вероятно, имел дело с выбросами в данных. Проблема с большинством алгоритмов обнаружения выбросов и вне распределения (OOD) заключается в том, что они делают большое предположение — что модель одинаково надежна во всех классах — в большинстве случаев это большое предположение ложно. Например, модель, обученная в ImageNet, обычно слишком самоуверенна (прогнозируемые вероятности близки к 1) для bananas
, но недостаточно уверена (прогнозируемые вероятности близки к 0) для десяти разных, но очень похожих классов lizard
в наборе данных.
В этой статье я покажу вам новую и простую настройку предсказанных вероятностей модели, которая может улучшить обнаружение OOD с помощью моделей, обученных на реальных данных. Представленный здесь впервые, этот уникальный подход основан на теории и выполняется всего в паре строк кода.
Фон
Выявление выбросов в тестовых данных, которые не связаны с распределением обучающих данных, имеет решающее значение для развертывания надежных моделей машинного обучения. Хотя для этой задачи обнаружения выхода за пределы распределения (аномалии/новинки) было предложено множество специальных (например, генеративных) моделей¹ ² ³, они часто специфичны для конкретных типов данных и нетривиальны в реализации. Вместо этого довольно популярными стали более простые методы обнаружения OOD, в которых используется уже обученный классификатор данных с метками классов⁴⁶. Такие методы, как расстояние KNN⁵ ⁷ и расстояние Махаланобиса³ ⁴, используют представления промежуточных признаков обученной нейронной сети для определения примеров OOD.
Еще более простой подход заключается в использовании только предсказанных вероятностей классов, выдаваемых обученным классификатором, и количественной оценке их неопределенности в качестве меры отклонения. Двумя особенно популярными методами OOD являются максимальная вероятность Softmax (MSP)⁶ или энтропия⁴⁵. По сравнению с большинством других методов MSP и Entropy требуют меньше информации от модели и требуют меньше вычислений для выявления выбросов. Здесь мы представляем простое улучшение этих базовых методов, чтобы повысить их эффективность.
Методы обнаружения OOD, основанные на базовом прогнозировании
Рассмотрим изображение x
и модель классификатора p = h(x)
, где p
— это предсказанный моделью вектор вероятности того, что это изображение принадлежит каждому классу k ∈ {1,…,K}
. На основе p
можно вычислить две простые оценки OOD для x
.
Максимальная вероятность Softmax (MSP) — количественно определяет, насколько уверенно модель относится к наиболее вероятному классу, который она предсказывает:
Энтропия — количественно определяет, насколько равномерно распределены вероятностные прогнозы модели среди всех K классов:
Было показано, что эти оценки работают на удивление хорошо для обнаружения изображений OOD⁶, несмотря на то, что они явно не оценивают эпистемическую неопределенность⁴.
Простая корректировка для улучшения базовых методов
Вероятности, предсказанные моделью p
, подвержены ошибкам оценки. Обученные модели могут предвзято предсказывать определенные классы по сравнению с другими, особенно когда классы в исходном наборе данных несбалансированы. Чтобы учесть эти проблемы, мы корректируем прогнозируемые вероятности с помощью достоверных порогов класса¹⁴, формируя новые оценки OOD на основе MSP/энтропии полученных скорректированных прогнозов.
Вычисление порогов достоверности для класса
Пусть yᵢ
обозначает метку класса для i-го примера в наших обучающих данных, а pᵢₖ
обозначает вероятность того, что этот пример xᵢ
принадлежит классу k
в соответствии с нашей моделью, мы вычисляем доверительный пороговыйвектор, k- элемент определяется как:
Пороги достоверности — это средняя вероятность класса, предсказанного нашей моделью, среди примеров, помеченных как этот класс. Таким образом, этот вектор представляет склонность нашей модели предсказывать конкретный класс для примеров, помеченных как этот класс, и было доказано, что он является естественным порогом для определения надежности вероятностных прогнозов¹⁴.
Корректировка предсказанных моделей вероятностей для шума
Для любого нового примера x
его прогнозируемый вектор вероятности p = h(x)
впоследствии корректируется доверительным порогом класса следующим образом:
Здесь cࠡ
— наибольшее значение в векторе достоверных порогов (чтобы обеспечить неотрицательность вероятностей), а Z
— нормирующая константа (чтобы сумма вероятностей по классам была равна единице):
Важно отметить, что при уверенных порогах вектор c
всегда рассчитывается с использованием предсказанных поездом вероятностей и меток. Любые предсказанные вероятности выходных данных модели (т. е. для дополнительных тестовых данных) могут быть скорректированы с использованием этих пороговых значений.
Вычисление скорректированных оценок OOD
Улучшенные оценки OOD для x
достигаются просто путем подстановки скорректированных предсказанных вероятностей p̃
вместо p
в любую из соответствующих формул MSP/энтропии. Таким образом, эта скорректированная процедура обнаружения OOD остается чрезвычайно простой и легко реализуемой на практике.
Сравнительный анализ производительности
В соответствии со стандартными процедурами сравнительного анализа OOD существующие наборы данных классификации изображений группируются в пары, где: один набор данных используется для обучения классификатора Swin Transformer⁸ и считается данными обучения в распределении, а примеры из второго набора данных смешиваются с данными тестирования первого набор данных (в соотношении 50–50) как изображения вне распространения. Каждый метод оценки OOD применяется ко всем изображениям в тестовом наборе (без знания их источника или их меток) для ранжирования этих изображений, которое мы оцениваем с помощью AUROC на предмет того, насколько хорошо эти оценки обнаруживают примеры OOD.
Мы рассматриваем 2 разные проблемы обнаружения OOD на основе популярных наборов данных классификации изображений: CIFAR-10⁵ против CIFAR-100⁵ и MNIST⁶ против FASHION-MNIST⁷. Наш первый эталонный тест основан на исходных версиях этих наборов данных, где классы естественным образом встречаются в равных пропорциях.
Мы также запускаем второй тест, в котором мы вводим дисбаланс классов в каждом тренировочном наборе. Здесь мы создаем новые несбалансированные обучающие наборы для CIFAR-10, MNIST и FASHION-MNIST, где в каждом обучающем наборе: 6 классов содержат по 2% от общего числа примеров и 4 класса содержат по 22% примеров. Мы также создаем несбалансированную обучающую выборку для CIFAR-100, в которой 90 классов имеют по 0,63% примеров, а 10 классов имеют по 4,25% примеров. Это позволяет нам оценить, насколько хорошо наши оценки OOD работают в условиях, когда классы встречаются в неравных пропорциях в размеченных обучающих данных, как это часто бывает в реальных приложениях.
Улучшенные результаты метода базовой линии
В таблицах 1 и 2 перечислены показатели AUROC, достигнутые как скорректированными, так и исходными (нескорректированными) методами оценки OOD для каждой настройки эталона. Для многих пар наборов данных «в дистрибуции» и «OOD» наблюдается явное улучшение, являющееся результатом предлагаемой нами корректировки.
С помощью лишь незначительной корректировки предсказанных вероятностей, выводимых обученным классификатором, производительность оценок обнаружения вне распределения как на основе энтропии, так и на основе MSP повышается.
Код для запуска этого метода OOD на любом наборе данных доступен здесь.
Рекомендации
[1] Ян, Дж., Чжоу, К., Ли, Ю., и Лю, З. Обобщенное обнаружение вне распределения: обзор. arXiv:2110.11334. 2021.
[2] Ran, X., Xu, M., Mei, L., Xu Q. и Liu Q. Обнаружение выборок вне распределения с помощью вариационного автокодера с надежной оценкой неопределенности. Нейронные сети. 2022.
[3] Цао, С., и Чжан, З. Глубокие гибридные модели для обнаружения вне распределения. Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов. 2022.
[4] Кирш, А., Мухоти, Дж., ван Амерсфорт, Дж., Торр, П. Х. С., и Гал, Ю. О ловушках при обнаружении OOD: энтропия считается вредной. Семинар ICML по неопределенности и надежности в глубоком обучении. 2021.
[5] Куан, Дж., и Мюллер, Дж. Назад к основам: пересмотр базовых показателей обнаружения отсутствия распространения. Семинар ICML по принципам переключения дистрибуции. 2022 г.
[6] Хендрикс, Д. и Гимпел, К. Базовый уровень для обнаружения неправильно классифицированных и нераспространяемых примеров в нейронных сетях. На Международной конференции по образовательным представлениям, 2017 г.
[7] Ангиулли, Ф. и Пиццути, К. Быстрое обнаружение выбросов в многомерных пространствах. На европейской конференции по принципам интеллектуального анализа данных и обнаружения знаний, 2002 г.
[8] Ли, К., Ли, К., Ли, Х., и Шин, Дж. Простая унифицированная структура для обнаружения не распространяемых образцов и состязательных атак. Достижения в области нейронных систем обработки информации, 31, 2018.
[9] Форт, С., Рен, Дж., и Лакшминараянан, Б. Изучение пределов обнаружения вне распределения. Достижения в области систем обработки нейронной информации, 34, 2021.
[10] Крижевский, А. Изучение нескольких слоев признаков из крошечных изображений. 2009.
[11] Денг, Л. База данных mnist рукописных цифровых изображений для исследований в области машинного обучения. Журнал обработки сигналов IEEE, 29(6):141–142, 2012 г.
[12] Xiao, H., Rasul, K., и Vollgraf, R. Fashion-mnist: новый набор данных изображений для сравнительного анализа алгоритмов машинного обучения. Препринт arXiv arXiv: 1708.07747, 2017.
[13] Лю, З., Линь, Ю., Цао, Ю., Ху, Х., Вэй, Ю., Чжан, З., Линь, С. и Го, Б. Преобразователь Суина: Иерархический преобразователь зрения с использованием сдвинутые окна. В материалах Международной конференции IEEE/CVF по компьютерному зрению, 2021 г.
[14] Норткатт С., Цзян Л., Чуанг И. Уверенное обучение: оценка неопределенности в метках наборов данных. Журнал исследований искусственного интеллекта. 2021.