Маска R-CNN что и как работает? Попытка 2

Mask R-CNN Unmasked
Выпущенный в 2018 году, Mask R-CNN, разработанный Kaiming He и его командой в FAIR, является одним из самых мощных алгоритмов для… среда.com

Как передаются данные → сначала извлеките признаки → затем мы создадим ограничивающую рамку, а также классификацию.

Ничего себе, довольно хорошие результаты → это впечатляет. (Региональная сеть предложений → необходима для сквозного обучения данной сети). (Fast RCNN → является основой и стартовым регионом MRCNN).

Сеть функциональных пирамид → была еще одним изменением → и генерация интересующей области также отличается.

Перед этим также выполняется некоторая предварительная обработка изображений → этот шаг специфичен для FPN.

Очень специфические этапы предварительной обработки для FPN → интересно.

Создается и извлекается множество карт объектов → затем мы собираемся выбрать регионы с объектами.

Два потока → один для классификации, а другой для создания ограничительной рамки.

Вау, это действительно сложно тренировать → не просто впритык → сложная система совмещения разных операций.

И в зависимости от того, обучаем ли мы/тестируем → некоторые гиперпараметры различаются. (также → используются не все карты объектов → используются только 4 из 5 карт объектов). (Также → MRCNN → выравнивание ROI, а не объединение).

Очень впечатлен тем фактом, что → вся эта сложная операция может быть выполнена от начала до конца → градиенты могут фактически проходить через все сложные сети. (наконец, → ограничительная рамка масштабируется до исходного размера изображения).

Разница в области ROI → заключается в том, чтобы координаты областей интереса хорошо совпадали.

Более быстрая R-CNN (обнаружение объектов), реализованная Keras для пользовательских данных из открытых изображений Google…
Introductiontowardsdatascience.com

Аналогичный код → но в другом наборе данных → и мы будем использовать Fast RCNN → это не MRCNN.

Вау, предлагается 2000 ограничивающих рамок → это много объектов для данного изображения. (Fast RCNN → иметь только VGG в качестве магистрали → может быть хорошей идеей использовать FPN → поскольку он заботится о разных масштабах).

Есть две потери → классификация → знание того, что такое классы, а также сравнение ограничивающей рамки каждого изображения.

Маска R-CNN что и как работает? Попытка 2

Вопросы по теме