Самоконтролируемая классификация: семантическая кластеризация путем выбора ближайших соседей

Подход 2020 года к ортодоксальным классификационным парадигмам

По иронии судьбы нейронные сети, которые утверждают, что сокращают ручные трудности, сами требуют вручную аннотированных контролируемых наборов данных. Эта ручная аннотация набора данных отнимает большую часть часов и дней тренировочного процесса.

В документе «Как научиться классифицировать изображения без этикеток» предлагается решение этой утомительной проблемы. В этой статье мы попытаемся разобрать метод, предложенный в статье. В статье также будут рассмотрены различные проведенные эксперименты и их наблюдения.

Таблица содержания

Вступление
Предлагаемый алгоритм
Эксперименты и результаты
Заключение
использованная литература

Вступление

Модели классификации изображений обычно обучаются на контролируемом наборе данных. Где входным изображениям присвоены метки, чтобы сеть могла изучать особенности. Но в последнее время появились некоторые подходы с самоконтролем для классификации, такие как (i) двухэтапные конвейерные методы и (ii) сквозные методы.
В двухэтапном методе конвейера первый этап использует обучение представлению для извлечения признаков из нейронной сети, а второй этап включает в себя точную настройку этой сети с наблюдением, чтобы проверить, правильно ли она обучена. Затем, наконец, кластеризация (K-средних) используется для тех функций, которые должны оптимизировать критерии независимо.
Сквозной подход объединяет извлечение функций и кластеризацию в один конвейер. Проблема этих методов заключается в том, что кластеризация уязвима для изначально изученных функций (низкоуровневых функций).
Метод этой статьи исключает зависимость помеченных данных от обучения модели семантической классификации. Бумага также избавляет от необходимости знать количество классов заранее. Кроме того, авторы доказывают, что другие параметры, используемые в этом методе, также не оказывают существенного влияния на модель.

Предлагаемый алгоритм

0. Обзор модели

В отличие от текущей тенденции сквозных моделей, в данной статье предлагается двухэтапный метод.

Изучение представлений, в котором задача с предлогом используется для встраивания признаков. На основе вывода предлога из каждого изображения извлекаются семантически значимые ближайшие соседи.
Затем обучите нейронную сеть с функцией потерь (это объясняется в разделе 3). Вместо наземных меток для обучения используется каждое изображение и его заминированные соседи вместе.

1. Репрезентативное обучение: предлог

При изучении представлений задача предлога изучает функцию встраивания Φ_θ - параметризованную нейронной сетью с весами θ - которая отображает изображения в представления признаков самоконтролируемым образом.

Предтекстовые задачи - это нейронные сети, используемые для обучения определенной задаче, такой как раскраска изображения, аффинное преобразование, распознавание экземпляров и т. Д. Задача предлога создает высокоуровневые функции, которые инвариантны к низкоуровневым характеристикам изображений (например, цвет, контраст, текстура, так далее).

Как подобрать предлог? Предлоговая задача, которая минимизирует расстояние между встраиванием функций X_i и его расширенным изображением (случайное кадрирование, переворачивание изображения и т. Д.) T [X_i] (как показано на Рис. 2) можно использовать, как и раньше, семантическую кластеризацию.

В данной статье предлагается использовать различение экземпляров [2] как повод для семантической кластеризации.

Полезно выбрать задачу с предлогом, которая требует неизменности между изображениями и их дополнениями.

2. Майнинг ближайших соседей

Репрезентативное обучение, при котором модель Φ_θ обучается решению предлоговых задач. Затем для каждого X_i в наборе данных добывается N_xi на основе вложений из задачи предлога. Обратитесь к Рис. 3 для потока соседей по добыче полезных ископаемых.

Данные, полученные этим процессом, будут выглядеть так, как показано на рис.

Рис-5 показывает, насколько одинаковые изображения кластера добываются ближайшими соседями.

3. Кластеризация: потеря семантической кластеризации.

Теперь, когда у нас есть Xi и его добытые соседи N_xi, цель состоит в том, чтобы обучить нейронную сеть Φη, которая классифицирует их (Xi и N_xi) в один и тот же кластер. Веса Φη обновляются путем минимизации функции потерь, представленной на рис. 4.

На рис. 6 в функции потерь первый член ‹·› обозначает оператор скалярного произведения.

Каждый метод кластеризации в основном направлен на минимизацию внутрикластерного расстояния и максимизацию межкластерного расстояния.

Следовательно, первый член здесь пытается минимизировать внутрикластерное расстояние, то есть сделать последовательный прогноз классификации Xi и N_xi в одном классе.
Чтобы избежать классификации всех входов в один кластер, вводится второй член энтропии. Это обеспечивает единообразие прогнозов для всего кластера.

4. Тонкая настройка: Самомаркировка

В сети кластеризации все еще есть ложные срабатывания, но с низкой степенью уверенности. Таким образом, бумага выполняет этап самомаркировки, чтобы сделать сеть более надежной.

Во время обучения достоверные выборки выбираются с помощью пороговой
вероятности на выходе, то есть pmax ›threshold. (очевидно, рассматриваются наиболее достоверные образцы)
Выбранным образцам присваиваются псевдометки (те, на которые они были классифицированы). и сильно расширенные версии (помогает избежать переобучения) достоверных выборок генерируются для дальнейшего обучения.
Потери кросс-энтропии используются для обновления весов сети.

Эксперименты и результаты

Расширения наборов данных

Модель тестировалась на различных наборах данных:
→ CIFAR10
→ STL10
→ CIFAR100–20
→ ImageNet-1000

Процесс увеличения:

Стандартные дополнения данных - это случайные перевороты, случайные кадры и джиттер.
Сильные аугментации состоят из четырех случайно выбранных трансформаций из AutoAugment.

Рис. 7 показывает, что применение сильных дополнений к выборкам и их ближайшим соседям еще больше улучшает производительность модели и вносит инвариантность в набор данных.

Предлоги

В качестве предлоговых задач в статье рассматриваются некоторые из таких самоконтролируемых сетей обучения функциям:

Оценка контрастности шума (NCE): различение экземпляров
RotNet: обучен предсказанию поворота изображений.
Разделение функций: совместно решает проблему распознавания экземпляров и прогнозирования вращения

Вращение распознает даже образцы и их дополнения, что, в свою очередь, увеличивает их расстояние. Следовательно, мы используем NCE для задач с предлогом. На рис. 8 показаны результаты точности для каждой использованной задачи с предлогом.

K-Ближайшие соседи

Поскольку мы используем K-ближайших соседей, возникает очевидный вопрос: какой K подходит для набора данных кластеризации.
→ K = 0 означает кластеризацию только выборок и их дополнений вместе.
→ K ≥1 захватывает больше дисперсия кластера и имеет шансы на увеличение шума, т. е. не все образцы и их соседи принадлежат одному кластеру.

Эксперименты, проведенные, как показано на фиг.9, модель классификации не очень чувствительна к значению K, но для K = 5 модель значительно улучшается даже за счет включения шума.

Чрезмерная кластеризация

Что ж, в документах установлено количество кластеров согласно набору наземных данных. Однако этого не будет, если нам не будет дано предварительное количество занятий. Поэтому был проведен эксперимент, в котором количество кластеров было увеличено на 2.

Paper предполагает, что повышение производительности на STL10 и CIFAR100–20 связано с более высокой дисперсией внутри класса.

Заключение

Предлагаемый метод устраняет требования к предварительному знанию:
(a) достоверных семантических меток во время обучения и
(b) количества классов.
Сильное увеличение данных помогает повысить производительность модели.
Нейронная сеть, выбранная для задачи с предлогом, должна сосредоточиться на сокращении внутрикластерного расстояния, а не на различении характеристик образцов от их дополнений.
Модель не сильно зависит от других факторов, таких как K, оценка кластера. Но K≥1 более рекомендуется, так как он помогает уловить разнообразие в том же классе и не является жестким для создания классифицирующей выборки и их дополнений.
Неоднозначность распределения данных, например, различать разных приматов, например шимпанзе, бабуин, лангур и т. д. могут быть немного сложнее. Но в то же время модель может работать с различными фонами, сценариями и при этом неплохо классифицироваться.

использованная литература

[1] Учимся классифицировать изображения без ярлыков

[2] I Статус дискриминации

Спасибо, что прочитали статью. Я надеюсь, что как писатель мне удалось передать тему с максимальной ясностью. Пожалуйста, оставьте комментарий, если у вас есть отзыв / сомнения.