Подход 2020 года к ортодоксальным классификационным парадигмам

По иронии судьбы нейронные сети, которые утверждают, что сокращают ручные трудности, сами требуют вручную аннотированных контролируемых наборов данных. Эта ручная аннотация набора данных отнимает большую часть часов и дней тренировочного процесса.

В документе «Как научиться классифицировать изображения без этикеток» предлагается решение этой утомительной проблемы. В этой статье мы попытаемся разобрать метод, предложенный в статье. В статье также будут рассмотрены различные проведенные эксперименты и их наблюдения.

Таблица содержания

  1. Вступление
  2. Предлагаемый алгоритм
  3. Эксперименты и результаты
  4. Заключение
  5. использованная литература

Вступление

  • Модели классификации изображений обычно обучаются на контролируемом наборе данных. Где входным изображениям присвоены метки, чтобы сеть могла изучать особенности. Но в последнее время появились некоторые подходы с самоконтролем для классификации, такие как (i) двухэтапные конвейерные методы и (ii) сквозные методы.
  • В двухэтапном методе конвейера первый этап использует обучение представлению для извлечения признаков из нейронной сети, а второй этап включает в себя точную настройку этой сети с наблюдением, чтобы проверить, правильно ли она обучена. Затем, наконец, кластеризация (K-средних) используется для тех функций, которые должны оптимизировать критерии независимо.
  • Сквозной подход объединяет извлечение функций и кластеризацию в один конвейер. Проблема этих методов заключается в том, что кластеризация уязвима для изначально изученных функций (низкоуровневых функций).
  • Метод этой статьи исключает зависимость помеченных данных от обучения модели семантической классификации. Бумага также избавляет от необходимости знать количество классов заранее. Кроме того, авторы доказывают, что другие параметры, используемые в этом методе, также не оказывают существенного влияния на модель.

Предлагаемый алгоритм

0. Обзор модели

В отличие от текущей тенденции сквозных моделей, в данной статье предлагается двухэтапный метод.

  1. Изучение представлений, в котором задача с предлогом используется для встраивания признаков. На основе вывода предлога из каждого изображения извлекаются семантически значимые ближайшие соседи.
  2. Затем обучите нейронную сеть с функцией потерь (это объясняется в разделе 3). Вместо наземных меток для обучения используется каждое изображение и его заминированные соседи вместе.

1. Репрезентативное обучение: предлог

При изучении представлений задача предлога изучает функцию встраивания Φ_θ - параметризованную нейронной сетью с весами θ - которая отображает изображения в представления признаков самоконтролируемым образом.

Предтекстовые задачи - это нейронные сети, используемые для обучения определенной задаче, такой как раскраска изображения, аффинное преобразование, распознавание экземпляров и т. Д. Задача предлога создает высокоуровневые функции, которые инвариантны к низкоуровневым характеристикам изображений (например, цвет, контраст, текстура, так далее).

Как подобрать предлог? Предлоговая задача, которая минимизирует расстояние между встраиванием функций X_i и его расширенным изображением (случайное кадрирование, переворачивание изображения и т. Д.) T [X_i] (как показано на Рис. 2) можно использовать, как и раньше, семантическую кластеризацию.

В данной статье предлагается использовать различение экземпляров [2] как повод для семантической кластеризации.

Полезно выбрать задачу с предлогом, которая требует неизменности между изображениями и их дополнениями.

2. Майнинг ближайших соседей

Репрезентативное обучение, при котором модель Φ_θ обучается решению предлоговых задач. Затем для каждого X_i в наборе данных добывается N_xi на основе вложений из задачи предлога. Обратитесь к Рис. 3 для потока соседей по добыче полезных ископаемых.

Данные, полученные этим процессом, будут выглядеть так, как показано на рис.

Рис-5 показывает, насколько одинаковые изображения кластера добываются ближайшими соседями.

3. Кластеризация: потеря семантической кластеризации.

Теперь, когда у нас есть Xi и его добытые соседи N_xi, цель состоит в том, чтобы обучить нейронную сеть Φη, которая классифицирует их (Xi и N_xi) в один и тот же кластер. Веса Φη обновляются путем минимизации функции потерь, представленной на рис. 4.

На рис. 6 в функции потерь первый член ‹·› обозначает оператор скалярного произведения.

Каждый метод кластеризации в основном направлен на минимизацию внутрикластерного расстояния и максимизацию межкластерного расстояния.

  • Следовательно, первый член здесь пытается минимизировать внутрикластерное расстояние, то есть сделать последовательный прогноз классификации Xi и N_xi в одном классе.
  • Чтобы избежать классификации всех входов в один кластер, вводится второй член энтропии. Это обеспечивает единообразие прогнозов для всего кластера.

4. Тонкая настройка: Самомаркировка

В сети кластеризации все еще есть ложные срабатывания, но с низкой степенью уверенности. Таким образом, бумага выполняет этап самомаркировки, чтобы сделать сеть более надежной.

  • Во время обучения достоверные выборки выбираются с помощью пороговой
    вероятности на выходе, то есть pmax ›threshold. (очевидно, рассматриваются наиболее достоверные образцы)
  • Выбранным образцам присваиваются псевдометки (те, на которые они были классифицированы). и сильно расширенные версии (помогает избежать переобучения) достоверных выборок генерируются для дальнейшего обучения.
  • Потери кросс-энтропии используются для обновления весов сети.

Эксперименты и результаты

Расширения наборов данных

Модель тестировалась на различных наборах данных:
→ CIFAR10
→ STL10
→ CIFAR100–20
→ ImageNet-1000

Процесс увеличения:

  1. Стандартные дополнения данных - это случайные перевороты, случайные кадры и джиттер.
  2. Сильные аугментации состоят из четырех случайно выбранных трансформаций из AutoAugment.

Рис. 7 показывает, что применение сильных дополнений к выборкам и их ближайшим соседям еще больше улучшает производительность модели и вносит инвариантность в набор данных.

Предлоги

В качестве предлоговых задач в статье рассматриваются некоторые из таких самоконтролируемых сетей обучения функциям:

  1. Оценка контрастности шума (NCE): различение экземпляров
  2. RotNet: обучен предсказанию поворота изображений.
  3. Разделение функций: совместно решает проблему распознавания экземпляров и прогнозирования вращения

Вращение распознает даже образцы и их дополнения, что, в свою очередь, увеличивает их расстояние. Следовательно, мы используем NCE для задач с предлогом. На рис. 8 показаны результаты точности для каждой использованной задачи с предлогом.

K-Ближайшие соседи

Поскольку мы используем K-ближайших соседей, возникает очевидный вопрос: какой K подходит для набора данных кластеризации.
→ K = 0 означает кластеризацию только выборок и их дополнений вместе.
→ K ≥1 захватывает больше дисперсия кластера и имеет шансы на увеличение шума, т. е. не все образцы и их соседи принадлежат одному кластеру.

Эксперименты, проведенные, как показано на фиг.9, модель классификации не очень чувствительна к значению K, но для K = 5 модель значительно улучшается даже за счет включения шума.

Чрезмерная кластеризация

Что ж, в документах установлено количество кластеров согласно набору наземных данных. Однако этого не будет, если нам не будет дано предварительное количество занятий. Поэтому был проведен эксперимент, в котором количество кластеров было увеличено на 2.

Paper предполагает, что повышение производительности на STL10 и CIFAR100–20 связано с более высокой дисперсией внутри класса.

Заключение

  • Предлагаемый метод устраняет требования к предварительному знанию:
    (a) достоверных семантических меток во время обучения и
    (b) количества классов.
  • Сильное увеличение данных помогает повысить производительность модели.
  • Нейронная сеть, выбранная для задачи с предлогом, должна сосредоточиться на сокращении внутрикластерного расстояния, а не на различении характеристик образцов от их дополнений.
  • Модель не сильно зависит от других факторов, таких как K, оценка кластера. Но K≥1 более рекомендуется, так как он помогает уловить разнообразие в том же классе и не является жестким для создания классифицирующей выборки и их дополнений.
  • Неоднозначность распределения данных, например, различать разных приматов, например шимпанзе, бабуин, лангур и т. д. могут быть немного сложнее. Но в то же время модель может работать с различными фонами, сценариями и при этом неплохо классифицироваться.

использованная литература

[1] Учимся классифицировать изображения без ярлыков

[2] I Статус дискриминации

Спасибо, что прочитали статью. Я надеюсь, что как писатель мне удалось передать тему с максимальной ясностью. Пожалуйста, оставьте комментарий, если у вас есть отзыв / сомнения.