ImageNet - отличный источник аннотированных изображений. Его большой аннотированный корпус ежедневно используется для обучения нейронных сетей. Тем не менее, крупномасштабное аннотирование данных невозможно для решения других задач, таких как сегментация изображения, обнаружение объектов или распознавание действий. Медицинские данные - еще один пример, для аннотации которых требуются медицинские техники, что может быть дорогостоящим. В этой статье предлагается неконтролируемый подход к обнаружению, классификации и сегментации объектов.

Данные из последовательных видеокадров богаты информацией. Пространственно-временные отношения можно рисовать без явной аннотации объектов в этих кадрах. Shuffle & learn, O3N, OPN используют временную последовательность для обучения нейронных сетей распознаванию действий. В этой статье предлагается неконтролируемая сегментация видео на основе движения для получения сегментов, которые они используют в качестве псевдоназемной истины для обучения сверточной сети сегментации объектов из одного кадра.

Сигналы низкого уровня, такие как края, цвет и текстура, могут привести к неправильной группировке пикселей. Движение помогает правильно сгруппировать движущиеся
пиксели и идентифицировать эту группу как единый объект. Таким образом, используя пару кадров, метки движения могут сегментировать объекты в видео без какого-либо контроля. Эта псевдосегментация используется в этой статье в качестве меток для обучения ConvNet.

Несмотря на зашумленность, в статье утверждается, что зашумленная псевдосегментация оказывает незначительное влияние на производительность нейронной сети. Чтобы поддержать такую ​​гипотезу, ConvNet сначала обучается с использованием достоверных сегментов из набора данных COCO. Затем снова тренировались с систематически ухудшенной достоверностью данных, чтобы проверить разницу в производительности. Чтобы ухудшить сегментацию наземной истинности, вводятся как граничный шум с использованием морфологических ядер, так и усечение, как показано на рисунке ниже.

Шумная сегментация мало влияет на среднюю точность сети, как показано на рисунке ниже.

Примеры выходных данных сети представлены ниже. Даже с зашумленными метками сегментации (второй столбец) сетевой вывод (третий столбец) лучше.

Предлагаемая ConvNet оценивается по множеству задач: обнаружение объектов, классификация изображений, классификация действий и семантическая сегментация. Он превосходит другие неконтролируемые подходы. Тем не менее, существует явный разрыв между предлагаемой ConvNet без учителя и контролируемым подходом с использованием ImageNet. В документе утверждается, что используемый набор данных невелик по сравнению с ImageNet. Таким образом, несмотря на наличие большого количества кадров для обучения из видео, эти кадры очень коррелированы.

Предлагаемый подход определенно интересен и полезен, но его эффективность нечеткая, когда камера движется - каждый пиксель изображения движется. Можно ли его использовать с видеороликами о движении эго, когда главный герой невидим, но несколько агентов движутся независимо?