Обнаружение семантического объекта CNTK?

Так что есть формат Китти, который использует цифры. Это задокументировано здесь: https://github.com/NVIDIA/DIGITS/blob/master/digits/extensions/data/objectDetection/README.md#label-format

Из примера здесь: https://github.com/Microsoft/CNTK/blob/master/Examples/Image/Regression/RegrSimple_CIFAR10.cntk похоже, что мне нужно сложить десериализаторы для достижения цели. Итак, это хорошо для одного класса объектов на изображение, но как насчет случая, когда у меня есть много объектов или известный набор объектов на изображение?

Я полагаю, что возникнет необходимость перейти к формату, подобному Kitti. Существует ли это в настоящее время? Есть ли способ сложить десериализаторы для этого? В настоящее время с образцом регрессии я не смог бы создать общий набор экстракторов функций для многих выходных данных ограничительной рамки (больше причин, чем просто метки, но здесь мы сосредоточимся только на метках).

Скорее всего возникнет вопрос, почему я не использую демо Fast RCNN? Поскольку при этом используется ROI, и эта ROI отправляется для классификации, проблема заключается в том, что мои классы объектов меняются в зависимости от семантики того, где они находятся на изображении и что находится вокруг них. Затем Fast RCNN объединяет блоки вместе в качестве основного прогноза. Это не работает для моего сценария.

Спасибо!

РЕДАКЦИИ - Мысли о продвижении вперед Может быть, мне просто нужен десериализатор текста полностью…

|Файл1Путь узел1 узел2 узел3 узел4

|Файл2Путь узел1 узел2 узел3 узел4

Теперь возникает вопрос: что, если в каждом файле есть n объектов? У Fast R-CNN такой сложный сценарий. Он просто складывает следующие 4 узла после первых 4 для каждого класса, как показано ниже?

|File1Path x1 y1 x2 y2 x21 y21 x22 y22

Теперь, если я это сделаю, то вопрос в том, как читатель узнает, к какому файлу это относится?

Я полагаю, имя файла становится идентификатором последовательности?

FilePath1 |яблоко x1 y1 x2 y2 x21 y21 x22 y22 |банан x1 y1 x2 y2

FilePath2 |оранжевый x1 y1 x2 y2 x21 y21 x22 y22 |банан x1 y1 x2 y2

Я думаю, что вышеизложенное - это именно то, что мне нужно, и тогда я полагаю, что вопрос в том, есть ли образец чтения для такого формата в python? Fast R-CNN в настоящее время находится только в мозговом сценарии. Я думаю, что я мог бы передать всю входную карту сверточных признаков в предложения ROI, и это даст семантическую сеть обнаружения объектов для всего, что я хочу.


person David Crook    schedule 24.01.2017    source источник


Ответы (1)


Не могли бы вы представить свои данные похожими на данные, показанные в руководстве по пониманию языка где некоторые метки могут иметь разреженный код, например яблоки, бананы и апельсины. Не все пути к файлам будут иметь все три. Предложите, чтобы Вы обратились к учебному пособию для понимания.

person Sayan Pathak    schedule 26.01.2017