Подход 2020 года к ортодоксальным классификационным парадигмам
По иронии судьбы нейронные сети, которые утверждают, что сокращают ручные трудности, сами требуют вручную аннотированных контролируемых наборов данных. Эта ручная аннотация набора данных отнимает большую часть часов и дней тренировочного процесса.
В документе «Как научиться классифицировать изображения без этикеток» предлагается решение этой утомительной проблемы. В этой статье мы попытаемся разобрать метод, предложенный в статье. В статье также будут рассмотрены различные проведенные эксперименты и их наблюдения.
Таблица содержания
- Вступление
- Предлагаемый алгоритм
- Эксперименты и результаты
- Заключение
- использованная литература
Вступление
- Модели классификации изображений обычно обучаются на контролируемом наборе данных. Где входным изображениям присвоены метки, чтобы сеть могла изучать особенности. Но в последнее время появились некоторые подходы с самоконтролем для классификации, такие как (i) двухэтапные конвейерные методы и (ii) сквозные методы.
- В двухэтапном методе конвейера первый этап использует обучение представлению для извлечения признаков из нейронной сети, а второй этап включает в себя точную настройку этой сети с наблюдением, чтобы проверить, правильно ли она обучена. Затем, наконец, кластеризация (K-средних) используется для тех функций, которые должны оптимизировать критерии независимо.
- Сквозной подход объединяет извлечение функций и кластеризацию в один конвейер. Проблема этих методов заключается в том, что кластеризация уязвима для изначально изученных функций (низкоуровневых функций).
- Метод этой статьи исключает зависимость помеченных данных от обучения модели семантической классификации. Бумага также избавляет от необходимости знать количество классов заранее. Кроме того, авторы доказывают, что другие параметры, используемые в этом методе, также не оказывают существенного влияния на модель.
Предлагаемый алгоритм
0. Обзор модели
В отличие от текущей тенденции сквозных моделей, в данной статье предлагается двухэтапный метод.
- Изучение представлений, в котором задача с предлогом используется для встраивания признаков. На основе вывода предлога из каждого изображения извлекаются семантически значимые ближайшие соседи.
- Затем обучите нейронную сеть с функцией потерь (это объясняется в разделе 3). Вместо наземных меток для обучения используется каждое изображение и его заминированные соседи вместе.
1. Репрезентативное обучение: предлог
При изучении представлений задача предлога изучает функцию встраивания Φ_θ - параметризованную нейронной сетью с весами θ - которая отображает изображения в представления признаков самоконтролируемым образом.
Предтекстовые задачи - это нейронные сети, используемые для обучения определенной задаче, такой как раскраска изображения, аффинное преобразование, распознавание экземпляров и т. Д. Задача предлога создает высокоуровневые функции, которые инвариантны к низкоуровневым характеристикам изображений (например, цвет, контраст, текстура, так далее).
Как подобрать предлог? Предлоговая задача, которая минимизирует расстояние между встраиванием функций X_i и его расширенным изображением (случайное кадрирование, переворачивание изображения и т. Д.) T [X_i] (как показано на Рис. 2) можно использовать, как и раньше, семантическую кластеризацию.
В данной статье предлагается использовать различение экземпляров [2] как повод для семантической кластеризации.
Полезно выбрать задачу с предлогом, которая требует неизменности между изображениями и их дополнениями.
2. Майнинг ближайших соседей
Репрезентативное обучение, при котором модель Φ_θ обучается решению предлоговых задач. Затем для каждого X_i в наборе данных добывается N_xi на основе вложений из задачи предлога. Обратитесь к Рис. 3 для потока соседей по добыче полезных ископаемых.
Данные, полученные этим процессом, будут выглядеть так, как показано на рис.
Рис-5 показывает, насколько одинаковые изображения кластера добываются ближайшими соседями.
3. Кластеризация: потеря семантической кластеризации.
Теперь, когда у нас есть Xi и его добытые соседи N_xi, цель состоит в том, чтобы обучить нейронную сеть Φη, которая классифицирует их (Xi и N_xi) в один и тот же кластер. Веса Φη обновляются путем минимизации функции потерь, представленной на рис. 4.
На рис. 6 в функции потерь первый член ‹·› обозначает оператор скалярного произведения.
Каждый метод кластеризации в основном направлен на минимизацию внутрикластерного расстояния и максимизацию межкластерного расстояния.
- Следовательно, первый член здесь пытается минимизировать внутрикластерное расстояние, то есть сделать последовательный прогноз классификации Xi и N_xi в одном классе.
- Чтобы избежать классификации всех входов в один кластер, вводится второй член энтропии. Это обеспечивает единообразие прогнозов для всего кластера.
4. Тонкая настройка: Самомаркировка
В сети кластеризации все еще есть ложные срабатывания, но с низкой степенью уверенности. Таким образом, бумага выполняет этап самомаркировки, чтобы сделать сеть более надежной.
- Во время обучения достоверные выборки выбираются с помощью пороговой
вероятности на выходе, то есть pmax ›threshold. (очевидно, рассматриваются наиболее достоверные образцы) - Выбранным образцам присваиваются псевдометки (те, на которые они были классифицированы). и сильно расширенные версии (помогает избежать переобучения) достоверных выборок генерируются для дальнейшего обучения.
- Потери кросс-энтропии используются для обновления весов сети.
Эксперименты и результаты
Расширения наборов данных
Модель тестировалась на различных наборах данных:
→ CIFAR10
→ STL10
→ CIFAR100–20
→ ImageNet-1000
Процесс увеличения:
- Стандартные дополнения данных - это случайные перевороты, случайные кадры и джиттер.
- Сильные аугментации состоят из четырех случайно выбранных трансформаций из AutoAugment.
Рис. 7 показывает, что применение сильных дополнений к выборкам и их ближайшим соседям еще больше улучшает производительность модели и вносит инвариантность в набор данных.
Предлоги
В качестве предлоговых задач в статье рассматриваются некоторые из таких самоконтролируемых сетей обучения функциям:
- Оценка контрастности шума (NCE): различение экземпляров
- RotNet: обучен предсказанию поворота изображений.
- Разделение функций: совместно решает проблему распознавания экземпляров и прогнозирования вращения
Вращение распознает даже образцы и их дополнения, что, в свою очередь, увеличивает их расстояние. Следовательно, мы используем NCE для задач с предлогом. На рис. 8 показаны результаты точности для каждой использованной задачи с предлогом.
K-Ближайшие соседи
Поскольку мы используем K-ближайших соседей, возникает очевидный вопрос: какой K подходит для набора данных кластеризации.
→ K = 0 означает кластеризацию только выборок и их дополнений вместе.
→ K ≥1 захватывает больше дисперсия кластера и имеет шансы на увеличение шума, т. е. не все образцы и их соседи принадлежат одному кластеру.
Эксперименты, проведенные, как показано на фиг.9, модель классификации не очень чувствительна к значению K, но для K = 5 модель значительно улучшается даже за счет включения шума.
Чрезмерная кластеризация
Что ж, в документах установлено количество кластеров согласно набору наземных данных. Однако этого не будет, если нам не будет дано предварительное количество занятий. Поэтому был проведен эксперимент, в котором количество кластеров было увеличено на 2.
Paper предполагает, что повышение производительности на STL10 и CIFAR100–20 связано с более высокой дисперсией внутри класса.
Заключение
- Предлагаемый метод устраняет требования к предварительному знанию:
(a) достоверных семантических меток во время обучения и
(b) количества классов. - Сильное увеличение данных помогает повысить производительность модели.
- Нейронная сеть, выбранная для задачи с предлогом, должна сосредоточиться на сокращении внутрикластерного расстояния, а не на различении характеристик образцов от их дополнений.
- Модель не сильно зависит от других факторов, таких как K, оценка кластера. Но K≥1 более рекомендуется, так как он помогает уловить разнообразие в том же классе и не является жестким для создания классифицирующей выборки и их дополнений.
- Неоднозначность распределения данных, например, различать разных приматов, например шимпанзе, бабуин, лангур и т. д. могут быть немного сложнее. Но в то же время модель может работать с различными фонами, сценариями и при этом неплохо классифицироваться.
использованная литература
[1] Учимся классифицировать изображения без ярлыков
[2] I Статус дискриминации
Спасибо, что прочитали статью. Я надеюсь, что как писатель мне удалось передать тему с максимальной ясностью. Пожалуйста, оставьте комментарий, если у вас есть отзыв / сомнения.