Размеры изображений Обнаружение объектов Tensorflow с использованием предварительно обученных моделей

Я вижу, что API обнаружения объектов тензорного потока позволяет настраивать размеры загружаемых изображений. Мой вопрос заключается в том, как это работает с предварительно обученными весами, которые обычно обучаются на изображениях 224 * 224, а иногда и 300 * 300 изображений.

В других используемых мною фреймворках, таких как caffe rfcn, yolo и keras ssd, изображения уменьшаются до стандартного размера с предварительно натренированными весами.

Использует ли tf предварительно обученные веса входного размера 300 * 300? И если да, то как мы можем использовать эти веса для классификации нестандартных размеров изображений? Уменьшается ли tf до соответствующего размера веса?


person Darragh    schedule 11.09.2017    source источник


Ответы (1)


Насколько я понимаю, размер ввода влияет только на входной уровень вашей сети. Но, пожалуйста, поправьте меня, если это не так, я все еще новичок во всей парадигме глубокого обучения.

Я использовал три модели API обнаружения объектов Tensorflow. Более быстрые R-CNN и R-FCN, как с экстрактором функций Resnet101, так и с моделью SSD с Inception V2. Модель SSD изменяет образы до фиксированного размера M x M. Это также упоминается в статье «Компромисс между скоростью и точностью для современных детекторов сверточных объектов» Хуанга и др., В то время как модели n Faster R-CNN и R-FCN обучаются на изображениях, масштабированных до M пикселей на более коротких край. Это изменение размера находится на этапе предварительной обработки модели.

Другой метод - сохранить соотношение сторон и обрезать изображение фиксированного размера, затем можно кадрировать из разных положений (центр, верхний левый, верхний правый, нижний левый, нижний правый и т. Д.), Чтобы сделать модель крепкий. Более сложные способы включают в себя изменение размера изображения до нескольких масштабов и обрезку, а также использование различных соотношений сторон в сверточных слоях с адаптивным размером пула позже, чтобы сделать такое же измерение функции, как SPP (см. Объединение пространственных пирамид в глубоких сверточных сетях для визуального распознавания, автор He et al. для более подробной информации.) Это то, что делает keep_aspect_ratio_resizer в конфигурации прото.

Это делает Архитектуры, насколько я понимаю, устойчивыми к разным размерам изображений. Таким образом, внутренние веса скрытых слоев не зависят от входного размера изображения.

person ITiger    schedule 13.09.2017