Когда распределение данных в реальном мире отличается от распределения в тестовом наборе, такие тесты могут завышать производительность модели. И модели по-прежнему могут давать неожиданные сбои — например, из-за систематической неправильной обработки входных данных, которые кажутся не более сложными, чем другие, с которыми модель справляется гладко.

Примеры трех типов ошибочных классификаций, выявленных с помощью Defuse. На этапе дистилляции похожие изображения группируются вместе для представления классов ошибок. На этапе коррекции модель была переобучена для правильной обработки этих классов.

Семинар по объяснимым подходам ИИ к отладке и диагностике (XAI4Debugging). Была представлена ​​презентация Defuse, метода, который автоматически обнаруживает ошибки модели на определенных типах входных данных и предоставляет способ их исправления.

Затем Defuse сортирует неправильно классифицированные изображения по высокоуровневым «ошибкам модели» — группам похожих изображений, которые постоянно вызывают ошибки. Затем пользователи могут определить сценарии, при которых их модели могут дать сбой, и обучить более надежные модели. После получения обученной модели классификации изображений (классификатора) Defuse создает реалистично выглядящие новые изображения, которые являются вариациями на входных данных тестового набора, которые неправильно обрабатывает классификатор.

Во время переобучения искусственно сгенерированные данные, вызывающие ошибки, смешиваются с исходными данными обучения модели в соотношении, контролируемом параметром λ. В экспериментах Система показала, что для каждого из трех выборочных наборов данных существует значение λ, которое обеспечивает стабильно высокую производительность на входных классах, определенных с помощью Defuse, при этом в значительной степени сохраняя производительность на исходных разбавленных данных.

Производительность на исходном тестовом наборе (синий) и на классах ошибок, определенных с помощью Defuse (оранжевый) для разных значений λ.

Сегментация данных

Для создания наших синтетических изображений Система автоматически обучит двусторонний автоэнкодер (BAE) на обучающих данных классификатора. BAE — это модель, обученная выводить те же данные, которые она принимает в качестве входных, но в промежутках между ними она создает векторное представление, которое фиксирует основные свойства входных данных. Это векторное представление определяет скрытое пространство, в котором близость указывает на сходство данных.

После обучения BAE команда будет использовать его скрытое пространство для создания новых данных изображения. На изображении ниже команда показывает, как BAE может интерполировать два тестовых изображения, определяющих точки в скрытом пространстве, для создания новых связанных изображений.

Defuse использует скрытое пространство обученного VAE для генерации новых данных.

Скрытые представления VAE лежат в основе трех основных шагов Defuse: идентификация, дистилляция и коррекция.

Идентификация. Во-первых, Defuse кодирует все изображения из обучающих данных, используя обученный BAE. Возмущение скрытого кода небольшим количеством шума должно привести к тому, что декодированные экземпляры будут иметь небольшие, но семантически значимые отличия от исходного экземпляра. Возмущениям присваивается та же метка, что и исходному экземпляру, а Defuse сохраняет экземпляры, которые классификатор ошибочно классифицирует. На рисунке выше красное число в правом верхнем углу каждого входного изображения — это предсказание классификатора.

Дистилляция. Затем модель кластеризации группирует скрытые коды изображений из предыдущего шага, чтобы диагностировать области неправильной классификации. В приведенном выше примере Defuse группирует вместе сгенерированные изображения цифры 8, которые неправильно классифицируются как 3. Defuse использует модель смеси Гаусса с процессом Дирихле априорно, потому что количество кластеров заранее неизвестно.

Ниже представлена ​​низкоразмерная (t-распределенное стохастическое встраивание соседей, или t-SNE) визуализация скрытых кодов, полученных из одного из трех наборов данных, которые команда использовала в наших экспериментах. Синие кружки — это скрытые коды изображений в обучающей выборке; черные точки — это скрытые коды сгенерированных изображений, которые были идентифицированы как ошибки классификатора. Красные точки — это три декодированных скрытых кода, где красная цифра в верхнем левом углу — это метка классификатора.

Низкоразмерная (t-SNE) визуализация кодировок скрытого пространства изображений в наборе данных (синие точки) и сгенерированные новые выборки (черные точки).

Исправление: кластеры, созданные на этапе дистилляции, затем аннотируются маркировщиками. Defuse запускает этап исправления, используя как данные, помеченные аннотатором, так и исходные обучающие данные, смешанные в соответствии с параметром λ.

Эксперименты

Система провела эксперименты с тремя общедоступными эталонными наборами данных, оценивая точность как тестовых данных области неправильной классификации, так и исходного тестового набора после внесения исправлений. Система сравнила Defuse с тонкой настройкой только на изображениях из этапа идентификации, которые аннотаторы помечают как ошибки классификатора. Система ожидала, что этот базовый уровень будет разумным, поскольку связанные работы, посвященные устойчивости к классическим атакам со стороны злоумышленников, демонстрируют эффективность настройки непосредственно на примерах со стороны злоумышленников. В целом, эти результаты показывают, что этап исправления в Defuse очень эффективен при исправлении ошибок, обнаруженных во время идентификации и дистилляции.

Образцы из трех областей неправильной классификации для каждого из трех наших тестовых наборов данных.

Новинка ошибочно классифицированных экземпляров, сгенерированных с помощью Defuse. Команда ожидала, что Defuse обнаружит новые ошибочные классификации моделей помимо тех, которые были обнаружены в доступных данных. Чтобы проверить эту гипотезу, The System сравнила ошибки, предложенные Defuse (данные области неправильной классификации), и ошибочно классифицированные обучающие данные.

Система выберет 10 изображений из областей неправильной классификации и найдет их ближайших соседей в ошибочно классифицированных обучающих данных. Команда обнаружила, что данные в областях неправильной классификации выявили другие типы ошибок, чем те, которые обнаружены в обучающем наборе.

Система будет сравнивать выборки из областей неправильной классификации с их ближайшими соседями в данных обучающей выборки. Система также исследовала области неправильной классификации, обнаруженные за пределами новых источников ошибок модели, не обнаруженных в неправильно классифицированных обучающих данных.