Я построил CNN для классификации с несколькими метками, то есть для прогнозирования нескольких меток на изображение.
Я заметил, что ImageNet и многие другие наборы данных фактически включают набор примеров для каждой метки. Они структурировали данные так, что при наличии метки есть список примеров для этой метки. А именно: метка -> список изображений. Также Keras, который я использую, поддерживает структуру данных папки для каждой метки и в каждой папке список изображений в качестве примеров для метки.
Проблема, которая меня беспокоит, заключается в том, что на многих изображениях может быть несколько меток. Например, если я классифицирую общие объекты, одна папка с именем «Cars» будет содержать изображения автомобилей, но на некоторых изображениях автомобилей также будут присутствовать люди (и это может помешать результатам для класса «People»).
Мой первый вопрос: 1) Может ли это (то есть одна метка на изображение в реальных условиях) снизить потенциальную точность сети?
Если это так, я подумал о создании набора данных в форме: image1, {список его ярлыков} image2, {список его ярлыков} и т. Д.
2) Будет ли такая структура давать лучшие результаты?
3) Какая хорошая научная статья по этому поводу?