Воспользовавшись блокировкой из-за коронавируса, я планировал прочитать документы об обнаружении основных объектов (хотя я примерно прочитал большинство из них, я буду читать их достаточно подробно, чтобы написать о них в блоге). Все эти статьи будут связаны с обнаружением объектов на основе глубокого обучения и вскоре попытаются охватить их все (если я их понимаю 😅). Не стесняйтесь давать предложения или задавать вопросы, я постараюсь помочь всем. Я напишу коды arxiv для каждой статьи ниже и дам ссылку на блог (буду обновлять их по мере написания) и их статью ниже. Любой, кто начинает с этой области и собирается изучить их, вы можете пропустить многие из них, но если вы хотите изучить их все, я предлагаю вам сделать это в порядке, указанном ниже. Я также напишу приоритет / важность (в зависимости от необходимости понимать тему) статей, как только прочту их все. Кроме того, некоторые из блогов связаны между собой (в качестве обязательного условия упомянем блоги). Для меня будет безумием, если я это сделаю 😅.

Список статей:

  1. OverFeat: интегрированное распознавание, локализация и обнаружение с использованием сверточных сетей. [Ссылка на блог]
  2. Богатые иерархии функций для точного обнаружения объектов и семантической сегментации (RCNN). [Ссылка на блог]
  3. Объединение пространственных пирамид в глубоких сверточных сетях для визуального распознавания (SPPNet). [Ссылка на блог]
  4. Fast R-CNN [Ссылка на блог]
  5. Быстрее R-CNN: к обнаружению объектов в реальном времени с помощью региональных сетей. [Ссылка на блог]
  6. Вы только посмотрите один раз: унифицированное обнаружение объектов в реальном времени. [Ссылка на блог]
  7. SSD: детектор Single Shot MultiBox. [Ссылка на блог]
  8. R-FCN: обнаружение объектов с помощью полностью сверточных сетей на основе регионов. [Ссылка на блог]
  9. Функциональные пирамидальные сети для обнаружения объектов. [Ссылка на блог]
  10. DSSD: Деконволюционный детектор одиночных импульсов. [Ссылка на блог]
  11. Потеря фокуса для обнаружения плотных объектов (сетка Retina). [Ссылка на блог]
  12. YOLOv3: постепенное улучшение. [Ссылка на блог]
  13. СНАЙПЕР: эффективное многомасштабное обучение. [Ссылка на блог]
  14. Представления высокого разрешения для маркировки пикселей и областей. [Ссылка на блог]
  15. FCOS: полностью сверточное одноэтапное обнаружение объектов. [Ссылка на блог]
  16. Объекты как точки. [Ссылка на блог]
  17. CornerNet-Lite: эффективное обнаружение объектов на основе ключевых точек. [Ссылка на блог]
  18. CenterNet: триплеты ключевых точек для обнаружения объектов. [Ссылка на блог]
  19. Удобная для обучения сеть для обнаружения объектов в реальном времени. [Ссылка на блог]
  20. CBNet: новая архитектура композитной магистральной сети для обнаружения объектов. [Ссылка на блог]
  21. EfficientDet: масштабируемое и эффективное обнаружение объектов. [Ссылка на блог]

Давайте начнем :)

В этом блоге я напишу, что такое обнаружение объектов как проблема, и попытаюсь дать обзор того, как она была решена до того, как использовались CNN (предоставлю материал, если кто-то захочет копнуть глубже, потому что, честно говоря, я не изучал его подробно. ). Я также напишу о вещах, которые будут распространены во всех будущих блогах по обнаружению объектов, например о показателях оценки. Этот блог будет коротким. Поскольку вы, ребята, читаете об обнаружении объектов на основе глубокого обучения, я предполагаю, что вы знакомы с основами глубокого обучения (CNN, ANN, обратное распространение и т. Д.).

Что такое обнаружение объекта:

Обнаружение объектов - одна из основных проблем компьютерного зрения, в которой задача состоит в том, чтобы получить координаты ограничивающего прямоугольника и класс всех объектов, которые можно увидеть на изображении. В отличие от классификации изображений, при которой задача состоит в том, чтобы предсказать один класс для каждого изображения, обнаружение объектов классифицирует и локализует несколько объектов на изображении. Хотя вы, должно быть, уже знаете это, вы лучше поймете это с помощью этого изображения:

Как это решается (с использованием традиционного резюме)

Традиционные методы компьютерного зрения, такие как SIFT, HOG, решают задачу обнаружения объектов с помощью ручных инженерных функций, связанных с задачей. Каждый метод имеет различия, в основном основанные на способе извлечения этих функций. Затем извлеченные признаки используются для классификации объекта на изображении. Проблема локализации обычно решается методом скользящего окна.

Есть проблемы с масштабом и соотношением сторон, связанные с техникой скользящего окна, по этой причине мы используем блоки с несколькими соотношениями сторон и уменьшаем размер изображения для захвата более крупных объектов (в приведенном выше размере изображения в формате gif уменьшен, это поможет захватывать более крупные объекты в image) этот прием называется техникой пирамиды изображений. Более наглядно это будет на этом изображении:

На этом изображении мы можем наблюдать, что человек сзади будет обнаружен в масштабе 1, но человек впереди слишком велик для ящиков, используемых с техникой скользящего окна, человек впереди обнаруживается в меньшем масштабе (масштаб 6) поскольку в таком масштабе человек может поместиться в коробке и, таким образом, может быть легко классифицирован с использованием созданных вручную функций. Я не буду больше обсуждать это, но упомяну некоторые источники, которые мне известны для их изучения.

Обнаружение объектов является важной проблемой и используется в различных областях и приложениях, таких как медицинская визуализация, беспилотный автомобиль, видеонаблюдение и т. Д.

Метрики оценки для обнаружения объекта:

Метрики оценки для оценки того, насколько хорош ограничивающий прямоугольник, называют пересечением по объединению (IOU). Долговая расписка основана на перекрытии между наземной истиной и предсказанной рамкой.

В некоторых наборах данных и бумаге используется другая метрика для обнаружения объектов, которая называется mAP (средняя средняя точность). MAP рассчитывается путем рассмотрения прямоугольника ниже определенного порога долгового обязательства как ложноположительного и выше порогового значения как истинного положительного. Затем с использованием этих значений рассчитывается точность. Я бы посоветовал вам просмотреть этот блог, чтобы лучше понять MAP.

Использованная литература:

Традиционные методы CV для обнаружения объектов:

  • Масштабно-инвариантное преобразование признаков (SIFT)
  • Гистограмма ориентированных градиентов (HOG)
  • Фреймворк для обнаружения объектов Виолы – Джонса на основе статьи Хаара о характеристиках

Я надеюсь, что вы вернетесь к основным блогам, продолжите обновлять ссылки по мере их написания.

Мир..