Классификация по одному классу - какой набор данных мне нужен?

Для всех этих моделей я использовал одни и те же гиперпараметры, и единственная разница заключалась в том, что я использовал набор данных для обучения модели.

Контрольный показатель - Кошка

50 изображений кошек и 50 случайных изображений.

Точность: 93,68%

Утрата проверки: 0,155562

Исследование 1

50 изображений кошек и 50 изображений, близких к изображениям кошек.

Точность: 95,79%

Утрата проверки: 0,125496

Исследование 2

50 изображений кошек и 10 случайных изображений.

Точность: 86.32%

Утрата проверки: 0,332196

Исследование 3

50 изображений кошек и 1 случайное изображение.

Точность: 50,53%

Утрата проверки: 1.120751

Исследование 4

50 изображений кошек и 50 случайных изображений, на которых нет одного объекта.

Точность: 87,37%

Утрата проверки: 0,423612

Исследование 5

50 изображений кошек и 50 белых изображений.

Точность: 50,53%

Утрата проверки: 2,964427

Контрольный показатель - Хот-дог

50 изображений хот-догов и 50 случайных изображений.

Точность: 62,63%

Утрата проверки: 1.095097

Исследование 6

50 изображений хот-догов и 50 изображений, близких к изображениям хот-догов.

Точность: 88,89%

Утрата проверки: 0,237508

Исследования 7

50 изображений хот-догов и 50 случайных изображений, на которых нет одного объекта.

Точность: 57,58%

Утрата проверки: 1,748822

Исследования 8

50 хот-догов и 50 белых изображений.

Точность: 49,49%

Утрата проверки: 4.558986

Заключение

Top List - Изображения кошек:

Исследование 1 - 95,79% (50 изображений кошек и 50 изображений, близких к изображениям кошек).
Скамейка-кот - 93,68% (50 изображений кошек и 50 случайных изображений.)
Исследование 4 - 87,37% (50 изображений кошек и 50 случайных изображений, на которых нет одного объекта).
Исследование 2 - 86,32% (50 изображений кошек и 10 случайных изображений.)
Исследование 5 - 53,53% (50 изображений кошек и 50 изображений белого цвета).
Исследование 3 - 53,53% (50 изображений кошек и 1 случайное изображение).

Top List - Изображения хот-догов:

Исследование 6 - 88,89% (50 изображений хот-догов и 50 изображений, близких к изображениям хот-догов.)
Bench.-hot - 62,63% (50 изображений хот-догов и 50 случайных изображений).
Исследование 7 - 57,58% (50 изображений хот-догов и 50 случайных изображений, на которых нет одного объекта).
Исследование 8 - 49,49% (50 хот-догов и 50 белых изображений.)

Что можно сказать об этих результатах?

Лучше иметь в кадре какой-нибудь объект, а не пейзаж или группу объектов. Было примерно на 5% лучше иметь объект на изображении в обоих наборах данных.
Выберите изображения, не относящиеся к классу (non-cats = non-class), как можно более близкие к основному классу. В примере с кошкой выбор изображений для набора данных немного улучшился, но в примере с хот-догом разница была огромной. Также важно попытаться предсказать, какие изображения будут в тестовом наборе, и использовать их в неклассовом обучающем наборе. Допустим, вы создаете приложение, которое предсказывает объект на изображении в виде кошки. Подумайте, какие изображения могут тестировать пользователи. Может быть, собака или другие животные, а не что-то вроде самолетов или домов. Вот почему мы должны добавить больше изображений животных в набор данных, не являющихся классами, и меньше самолетов.
Если вы просто используете белые изображения, он научится видеть, что некласс - это изображение, в котором нет форм или разных цветов. Например, если кто-то покажет вам одну картинку с кошкой и одну белую картинку. Какое из этих изображений больше похоже на слона? Да, кот. Потому что есть формы, цвета, и мы, люди, можем даже признать, что оба они животные. Вот почему модель предсказывает все изображения основному классу.
Постарайтесь, чтобы у вас было достаточно неклассных изображений. В наших тестах работала 1 неклассовая модель, а также модель, которая случайным образом выбирала одну из этих двух. Когда у нас есть 10 изображений, она сразу становится намного лучше и почти так же хороша, как модель, обученная с помощью 50 неклассовых изображений.

Подводя итог, попробуйте подумать, какой тип тестового набора изображений используется в качестве неклассовых изображений, и добавьте такие изображения в свой набор поездов. Если вы не можете это предсказать, попробуйте добавить как можно больше различных объектов. Не используйте пейзажи или изображения там, где нет одного объекта. Всегда думайте, как бы вы назвали это изображение, если бы оно было собственным классом. И в чем я сначала сомневаюсь - Да нужны неклассные изображения. Неважно, какие объекты есть на этих изображениях, но это ключевой момент.

Код и наборы данных на моем Github.

~ Ланкинен