Я пытаюсь оценить свой модуль обнаружения видеообъектов и использую для этой цели набор данных InageNet VID. В какой-то момент я столкнулся с проблемой оценки кадра, содержащего нулевые объекты. Это означает, что в этом кадре нет наземных блоков правды (это нормально, поскольку мы говорим об обнаружении видеообъектов).
Поскольку модуль, который я использую, ожидал присутствия как минимум 1 bbox, мне было интересно, какова официальная обработка этого случая ImageNet. Я нашел это описание, которое, очевидно, не является исчерпывающим, может указать на некоторые моменты в ImageNet сайт, на котором указано:
Метрика оценки такая же, как и для задачи обнаружения объектов, то есть объекты, которые не аннотированы, будут оштрафованы, как и дублирующиеся обнаружения (две аннотации для одного и того же экземпляра объекта).
(sic; опечатка из оригинального текста)
В котором не упоминается описанный выше сценарий. Поскольку это простое описание, я не уверен, что оно охватывает все крайние случаи. Обычно при обнаружении одного объекта изображения это не проблема, поскольку образцы оценки всегда содержат какой-либо объект. Но в данном случае означает ли это, что я должен, например, вообще игнорировать эти кадры?
Кроме того, проверьте это репозиторий о метрике обнаружения объектов (которая, кстати, является супераналитической), случай отсутствия gt, кажется, попадает в общий сценарий о ложном срабатывании (FP). В этом случае Intersection будет равен 0 (поскольку gt bbox не существует), а Union будет просто ненулевым числом, равным FP bbox и, таким образом, IoU = 0
.
Итак, как официальный ImageNet справляется с этими случаями? Меня не интересует, какой здесь разумный выбор, только официальная версия.