Синхронизируйте точки обзора:

Привет всем, меня зовут Инвэй, это первая часть серии обзоров фона для обнаружения объектов. В этих статьях я расскажу о фундаментальных знаниях об обнаружении объектов с помощью глубоких нейронных сетей, охватывающих следующие темы:

1. Сюжетная линия показателей оценки [мы здесь]

2. Обычно используемый формат набора данных: MS-COCO и его API.

3. Запачкайте руки: инженерный аспект более быстрого RCNN (версия PyTorch), включая класс UML, методы модификации и добавление к вашим собственным необработанным данным изображения.

4. Дополнительная ветка, дополнительное развлечение: от более быстрого RCNN до маскирования RCNN (версия PyTorch).

5. Откройте карту: обзор литературы по различным типам моделей и недавних исследовательских идей в области обнаружения объектов.

Обнаружение объектов: где и что

Обнаружение объектов преследует две основные цели: обнаружение местоположения объекта и распознавание категории объекта (собака или кошка), обобщенных как локализация и классификация. Локализация отличает объекты от фона, а классификация отличает один объект от других с разными категориями.

Ограничивающая рамка и IoU

Модель обнаружения использует прямоугольные ограничивающие рамки в качестве прогнозов местоположения объекта и результатов классификации (как на демонстрационном изображении ниже). Другими словами, модель считала, что ограничивающая рамка содержит объект из определенной категории.

В качестве задачи машинного обучения с учителем и предсказание, и достоверность данных представлены в виде ограничивающих рамок, которые отличаются от дискретной метки, такой как задачи классификации изображений, такие как MNIST. Так как определиться с правильностью локализации? Что ж, ответ - IoU (пересечение союза), также известный как индекс Жаккара, исторические подробности см. В wiki. На основе связанных концепций теории множеств, IoU рассчитывается путем деления областей пересечения и объединения, как на рисунках ниже, отображающих области.

Формула приведена ниже:

Одним из мотивов использования является его неизменность масштабов ограничивающего прямоугольника, другими словами, высокое значение IoU может быть достигнуто только в том случае, если прогнозируемый ограничивающий прямоугольник имеет близкое приближение в качестве эталона. Кроме того, он преобразует результаты обнаружения в простые геометрические свойства (площадь, ширину и высоту). Что касается способа определения того, соответствует ли прогноз истинности, порог для IoU предварительно определен как пропорции, маркирующие прогнозы с более высоким IoU (50% (PASCAL VOC), 75% или строгие 95%), которые считаются правильными.

Кроме того, как метрики для контролируемого машинного обучения, IoU ассоциируется с потерями, чтобы регрессировать ограничивающие прямоугольники прогноза до истинного значения. [Необязательно] В недавней статье CVPR предлагается обобщенная метрика IoU, которая в некоторых случаях может облегчить обучение.

Точность и отзыв

В отличие от многих задач компьютерного зрения, таких как классификация MNIST, которая использует точность для оценки производительности модели, в Обнаружении объектов используется попарный показатель точность и отзыв. Эти две метрики изначально используются при поиске документов, а затем адаптируются к области машинного обучения. Одним из примеров является их применение в классификации изображений, например, для определения того, есть ли на изображении кошка или нет.

Основываясь на эталонном тесте данных, ниже показаны четыре условия:

Чтобы быть конкретным, для образца изображения кошек (ориентир - категория кошек):

  • Если модель предсказывает изображение, содержащее кошку, это обозначается как «положительное» предсказание, делая категорию собак «отрицательной». В этом случае прогноз модели верен, что соответствует «TP» (истинное положительное значение) в таблице выше. Для категории собак этот прогноз является правильным «TN» (истинно отрицательный).
  • Точно так же, если прогноз модели - собака (отрицательный для кошки и положительный для собаки), то это «FN» (ложноотрицательный) для кошки и «FP» (ложноположительный) для собаки.

Обычно точность определяется следующим уравнением:

и напоминание:

В целом, добавление TP и FP рассматривается как общее количество положительных прогнозов модели, а сумма TP и FN - это общее количество изображений целевой категории в наборе данных, то есть количество изображений кошек.

В заключение, точность измеряет долю правильности в положительных прогнозах, которая является вероятностью правильности, когда модель дает положительный прогноз.

В то время как отзыв отражает долю правильности среди всех положительных выборок данных, то есть предсказывает ли модель большинство случаев из целевой категории.

Одним из мотивов применения точности и отзыва вместо точности является ограничение несбалансированного набора данных. В аспекте матрицы неточностей метрика точность рассчитывается как:

Следовательно, точность - это доля правильных прогнозов в целом. Он отлично работает, когда в наборе данных примерно одинаковое количество экземпляров для каждой категории. Однако на практике обычно набор данных включает категории с большим количеством экземпляров, чем другие. Например, набор данных содержит 100 изображений, из которых 99 изображений кошек и только 1 изображение собаки.

В этом случае высокая точность может быть достигнута путем простого вывода всех изображений в виде кошек с точностью 99%. Другими словами, показатель точности не имеет смысла. Напротив, точность для кошек составляет 99% при 100% запоминании, в то время как для категории собак точность составляет 0% при 0% запоминании. Эти аномальные значения точности и отзыва указывают на проблемы с производительностью модели, доказывая, что их удобство лучше, чем точность.

От P к AP и кривой P-R

В предыдущем разделе рассказывается о точности, отзыве и использовании IoU для оценки прогнозов модели. На основе этих фундаментальных концепций предлагается ряд показателей для подробного описания характеристик модели: кривая P-R, AP и mAP.

Пересортировывая пример несбалансированного набора данных в предыдущем разделе, точность или отзыв как таковой недостаточно для описания производительности модели, поскольку точность может составлять 99% при полноте отзыва. Поскольку точность может быть улучшена просто путем вывода небольшого количества прогнозов с наивысшей степенью достоверности, таких как вывод только одного прогноза, в котором модель на 100% уверена, что это кот, чтобы получить 100% точность, поскольку точность не учитывает прогноз количество. Хотя высокая скорость отзыва может быть достигнута за счет увеличения количества прогнозов, например, прогнозирования всех выборок данных в качестве кошек, чтобы получить 100% отзыв, поскольку знаменатель отзыва не включает количество ложных прогнозов.

Поэтому, чтобы включить как точность, так и отзыв, кривая P-R предлагается для систематического описания точности модели с различными уровнями отзыва, как показано на диаграмме ниже:

Большинство кривых P-R имеют следующие общие черты:

  • Это бессмысленно, когда точность равна нулю (TP = 0) и вместо этого используются приближенные значения.
  • Аналогично обрабатывается «нулевой отзыв». Кроме того, что касается уравнения точности, нулевой отзыв означает большое значение «TP + FP», поскольку величина прогнозирования значительно увеличивается, в результате чего точность сходится к нулю.

Кривая P-R описывает подробную информацию об изменениях между точностью и отзывом. Однако он недостаточно краток, чтобы суммировать характеристики модели, и для сравнения различных моделей требуется простая метрика. Поэтому концепция Средняя точность (AP) предлагается в задаче раннего обнаружения объектов PASCAL VOC, которая адаптирована из метода 11-точечной интерполяции в области поиска информации. AP рассчитывается по следующим уравнениям:

в то время как « означает отзыв, а «P_interp (r)» (о боже, это выглядит ужасно) означает точность интерполяции с учетом скорости отзыва «r» , который усредняется по 11 различным частотам отзыва от 0 до 1. Точность интерполяции рассчитывается как максимальная точность, которую модель могла бы достичь с коэффициентами отзыва, превышающими заданное «r». Часто бывает, что более высокий уровень отзыва связан с более низкой точностью или наоборот.

Следовательно, «A» для среднего в «AP» - это среднее значение по 11 точностям интерполяции, и на практике набор данных включает несколько категорий, и каждая категория имеет свою собственную AP. Следовательно, как правило, AP также включает дополнительные вычисления для среднего значения AP по категориям.

Кроме того, средний отзыв (AR) определяется и рассчитывается аналогично AP.

Итак, от P до AP требуется два вычисления среднего: точность интерполяции и вычисление среднего по категориям. Кроме того, AP вкратце демонстрирует точность и отзывчивость и используется в качестве основного показателя в задачах PASCAL VOC для определения победителей.

От AP / AR до mAP / mAR

Как упоминалось выше, AP суммировал точность и отзыв по кривой P-R и использовался в качестве основных показателей для ранжирования характеристик модели. Однако есть некоторые неизбежные ограничения AP. Одним из основных ограничений является его неспособность, когда большинство моделей-кандидатов достигли высокого AP при свободном стандарте IoU, равном 0,5. Таким образом, средняя средняя точность (mAP) предлагается для оценки производительности модели при различных уровнях пороговых значений IoU. Заимствованный из вызова MS-COCO, mAP вычисляет среднее значение точек доступа с учетом различных пороговых значений IoU.

Что касается концепций IoU в предыдущих разделах, более низкие значения IoU означают меньшие трудности, которые вносят более высокий AP. По мере развития моделей глубокого обучения в обнаружении объектов производительность модели значительно улучшилась, поэтому 0,5 IoU недостаточно для ранжирования моделей.

mAP учитывает 10 различных пороговых значений IoU, и их точки доступа перечислены ниже:

Помимо различных пороговых значений IoU, MS-COCO mAP также определяет производительность модели для объектов с разным масштабом, например mAP small, mAP medium и mAP large. Масштаб объектов задается площадью их ограничивающих рамок истинности (Ш × В). Объекты с масштабом менее 32 × 32 пикселя определяются как маленькие объекты, средние - от 32 × 32 до 96 × 96, а те, что больше 96 × 96, считаются большими объектами.

Таким образом, mAP оценивает производительность модели в более систематическом аспекте по сравнению с AP. mAR определяется и рассчитывается аналогичным образом, и mAP считается основным показателем для ранжирования моделей в задачах MS-COCO.

Распространенные ошибки обнаружения объектов и кривая Дерека П-Р

В предыдущем разделе представлена ​​программа MAP, которая оценивает производительность модели при разном уровне отзыва и результатах обнаружения, связанных с заданной шкалой. Помимо mAP, существует еще одна метрика под названием Кривая P-R в стиле Дерека, которая учитывает распространенные ошибки при обнаружении объектов.

Кривая Дерека P-R первоначально была предложена Дереком Хоймом в его статье Диагностика ошибок в детекторах объектов и модифицирована другими исследователями для демонстрации подробных характеристик модели.

Что касается вышеупомянутого содержимого, модель обнаружения объектов предсказывает ограничивающие рамки для обозначения местоположения объекта и классификации категории объекта внутри рамок. В соответствии с различиями между прогнозируемой ограничивающей рамкой и соответствующими наземными рамками истинности, неправильные результаты обнаружения можно рассматривать как четыре разные категории: Loc, Sim, Oth и Bg.

  • Loc: Loc означает ошибку локализации, что означает снижение IoU от 10% до 50%.
  • Сим: Сим означает ошибку похожих объектов, которая моделирует объекты, неправильно классифицированные как другие в той же суперкатегории, например, распознавание автобуса как грузовика, в то время как автобус и грузовик принадлежат к той же суперкатегории «транспортное средство» (а).
  • Oth: детектор классифицирует объекты по категории, относящейся к другой суперкатегории, такой как свечи и светофор (b).
  • Bg: детектор классифицирует часть фонового изображения как объект, например распознает фоновое дерево как человека ©.

Эти ошибки вызывают различные причины, такие как масштаб объекта, соотношение сторон ограничивающих рамок наземной истины, окклюзия и аномальные точки обзора. На диаграмме ниже показан пример объектов самолета:

Кривая Дерека P-R представлена ​​на основе обсуждения выше. На приведенной ниже диаграмме показана демонстрационная кривая модели Faster-RCNN ResNet-50 в наборе данных MS-COCO.

Кривая Дерека P-R демонстрирует производительность модели с ее ошибками по площади под кривой (AUC). Области разных цветов обозначают связанные ошибки, а белая часть - это C75 и C50, которые представляют модель mAP с порогами IoU 75% и 50% соответственно. Граничная кривая Loc означает результаты MAP после настройки порога IoU с 50% до 10%. Граничные кривые Sim, Oth и Bg представляют собой результаты MAP после установки связанных ошибок в качестве правильности. Наконец, ложноотрицательный результат (FN) используется в качестве дополнения к ошибкам, которые не включены, и делает общую площадь равной «1,00».

Использованная литература:

  1. Гиршик, Р. (2015). Быстро r-cnn. В материалах Международной конференции IEEE по компьютерному зрению (стр. 1440–1448).
  2. Эверингем М., Ван Гул Л., Уильямс К. К., Винн Дж. И Зиссерман А. (2010). Задача классов визуальных объектов Паскаля (вокал). Международный журнал компьютерного зрения, 88 (2), 303–338.
  3. Лин, Т. Ю., Мэйр, М., Белонги, С., Хейс, Дж., Перона, П., Раманан, Д.,… и Зитник, К. Л. (2014, сентябрь). Microsoft coco: общие объекты в контексте. В Европейской конференции по компьютерному зрению (стр. 740–755). Спрингер, Чам.
  4. Хойем Д., Чодпатумван Ю. и Дай К. (2012, октябрь). Ошибка диагностики в детекторах объектов. В Европейской конференции по компьютерному зрению (стр. 340–353). Шпрингер, Берлин, Гейдельберг.
  5. Мэннинг, К., Рагхаван, П., и Шютце, Х. (2010). Введение в поиск информации. Инженерия естественного языка, 16 (1), 100–103.