О чем пойдет речь в этой серии:

Часть 1: Краткое введение в компьютерное зрение и обнаружение объектов и YOLO.

Часть 2: Глубокое погружение в YOLO. Понимание математики и статистики.

Часть 3: Touch base с открытым исходным кодом и работающим мобильным приложением

Краткое введение в компьютерное зрение и обнаружение объектов и YOLO.

Распознавание лиц, разблокировка по лицу и беспилотные автомобили — как мы сюда попали?

Компьютерное зрение – это одна из областей, которая быстро развивается благодаря глубокому обучению. Компьютерное зрение с глубоким обучением теперь помогает беспилотным автомобилям определять, где находятся другие автомобили и пешеходы, чтобы избежать их. Благодаря этому распознавание лиц работает намного лучше, чем когда-либо прежде, и поэтому, возможно, некоторые из вас могут разблокировать телефон, даже дверь, используя только свое лицо.

Компьютерное зрение — это раздел искусственного интеллекта в компьютерных науках, который занимается тем, как компьютеры могут получать высокоуровневое понимание цифровых изображений или видео. С инженерной точки зрения он стремится автоматизировать задачи, которые может выполнять зрительная система человека. Не запутайтесь еще!

Обнаружение объектов моделируется как задача классификации, в которой мы берем окна фиксированных размеров из входного изображения во всех возможных местах и ​​передаем эти фрагменты классификатору изображений. Пример показан ниже:

Каждое окно передается классификатору, который предсказывает класс объекта в окне (или фон, если его нет). Следовательно, мы знаем как класс, так и расположение объектов на изображении. Звучит просто! Ну и еще несколько проблем. Как узнать размер окна, чтобы оно всегда содержало изображение?

Как видите, объект может быть разного размера. Чтобы решить эту проблему, создается пирамида изображений путем масштабирования изображения. Идея состоит в том, что мы изменяем размер изображения в нескольких масштабах и рассчитываем на тот факт, что выбранный нами размер окна будет полностью содержать объект в одном из этих измененных изображений.

Есть еще одна проблема, соотношение сторон. Многие объекты могут присутствовать в различных формах, например, сидящий человек будет иметь другое соотношение сторон, чем стоящий или спящий человек. Эти и другие проблемы привели к ряду обширных исследований, в ходе которых были разработаны алгоритмы для решения таких проблем. Некоторые из них включают CNN (сверточные нейронные сети), R-CNN (региональные базовые сверточные нейронные сети), Faster-RCNN, SSD (детектор одиночного снимка) и YOLO (вы только посмотрите один раз) и другие.

Во второй части этой серии мы углубимся в YOLO, который в настоящее время является современным алгоритмом обнаружения объектов в реальном времени, который затмевает другие детекторы. Вы можете взглянуть на бумагу. «Однако, одно предупреждение: если вы посмотрите на эти документы, то это документ YOLO, который является одним из самых сложных для чтения. Я помню, когда я впервые читал эту статью, мне было очень трудно понять, что происходит. И я попросил пару своих друзей, очень хороших исследователей, помочь мне разобраться, и даже им было трудно понять некоторые детали статьи. Итак, если вы посмотрите на бумагу, ничего страшного, если вам будет трудно понять это. Я бы хотел, чтобы это было более необычным, но, к сожалению, это не так уж редко, даже для старших исследователей, которые просматривают исследовательские работы и с трудом выясняют детали. И приходится смотреть открытый исходный код, или связываться с авторами, или еще что-то, чтобы выяснить детали этих исходов. Но не позволяйте мне мешать вам взглянуть на статью самостоятельно, если хотите, но это одна из самых сложных статей. Эндрю Нг, исследователь глубокого обучения в Стэнфордском университете и компании -основатель Google Brain.

ТЛ; ДР? Спасибо за чтение.

Ссылки, перечисленные ниже:

  1. https://www.coursera.org/learn/convolutional-neural-networks/lecture/Ob1nR/computer-vision
  2. https://cv-tricks.com/object-detection/faster-r-cnn-yolo-ssd/
  3. https://en.wikipedia.org/wiki/Компьютерное_видение
  4. https://www.coursera.org/learn/convolutional-neural-networks/lecture/9EcTO/bounding-box-predictions