Так что есть формат Китти, который использует цифры. Это задокументировано здесь: https://github.com/NVIDIA/DIGITS/blob/master/digits/extensions/data/objectDetection/README.md#label-format
Из примера здесь: https://github.com/Microsoft/CNTK/blob/master/Examples/Image/Regression/RegrSimple_CIFAR10.cntk похоже, что мне нужно сложить десериализаторы для достижения цели. Итак, это хорошо для одного класса объектов на изображение, но как насчет случая, когда у меня есть много объектов или известный набор объектов на изображение?
Я полагаю, что возникнет необходимость перейти к формату, подобному Kitti. Существует ли это в настоящее время? Есть ли способ сложить десериализаторы для этого? В настоящее время с образцом регрессии я не смог бы создать общий набор экстракторов функций для многих выходных данных ограничительной рамки (больше причин, чем просто метки, но здесь мы сосредоточимся только на метках).
Скорее всего возникнет вопрос, почему я не использую демо Fast RCNN? Поскольку при этом используется ROI, и эта ROI отправляется для классификации, проблема заключается в том, что мои классы объектов меняются в зависимости от семантики того, где они находятся на изображении и что находится вокруг них. Затем Fast RCNN объединяет блоки вместе в качестве основного прогноза. Это не работает для моего сценария.
Спасибо!
РЕДАКЦИИ - Мысли о продвижении вперед Может быть, мне просто нужен десериализатор текста полностью…
|Файл1Путь узел1 узел2 узел3 узел4
|Файл2Путь узел1 узел2 узел3 узел4
Теперь возникает вопрос: что, если в каждом файле есть n объектов? У Fast R-CNN такой сложный сценарий. Он просто складывает следующие 4 узла после первых 4 для каждого класса, как показано ниже?
|File1Path x1 y1 x2 y2 x21 y21 x22 y22
Теперь, если я это сделаю, то вопрос в том, как читатель узнает, к какому файлу это относится?
Я полагаю, имя файла становится идентификатором последовательности?
FilePath1 |яблоко x1 y1 x2 y2 x21 y21 x22 y22 |банан x1 y1 x2 y2
FilePath2 |оранжевый x1 y1 x2 y2 x21 y21 x22 y22 |банан x1 y1 x2 y2
Я думаю, что вышеизложенное - это именно то, что мне нужно, и тогда я полагаю, что вопрос в том, есть ли образец чтения для такого формата в python? Fast R-CNN в настоящее время находится только в мозговом сценарии. Я думаю, что я мог бы передать всю входную карту сверточных признаков в предложения ROI, и это даст семантическую сеть обнаружения объектов для всего, что я хочу.