[Соавторами этой статьи являются Дженнифер Прендки и Аканкша Девкар из Алектио]

Прежде чем перейти к заключительной части этой серии, мы подумали, что было бы разумно выделить момент и освежить в памяти то, что мы узнали на данный момент.

В части 1 мы добавили шум в набор данных CIFAR-10, обучили модели на этих загрязненных данных и провели пару экспериментов. Неудивительно, что худшие данные дают худшую производительность модели, но гораздо интереснее то, что на одни классы повлияли гораздо больше, чем на другие. Нашей модели было легко изучить изображения лягушек и грузовиков, и ложь, которую мы сказали нашей модели, не сильно ухудшила ее точность, в то время как зашумленные метки в данных о кошках были значительно более вредными.

Узнав, что загрязнение влияет на классы по-разному, в части 1, в следующей части мы узнали, что чувствительность класса не специфична для модели. Другими словами, одни и те же классы постоянно подвергались воздействию в разных моделях, что подтверждает гипотезу о том, что чувствительность классов не зависит от модели, а зависит от данных. По сути: данные о плохих кошках повлияли на каждую модель сильнее, чем данные о плохих лягушках и грузовиках по всем направлениям.

В этом выпуске мы продолжим извлекать уроки из этих уроков. Мы начнем со сравнения влияния шума данных и объема данных. В частности, мы хотели бы понять, что более враждебно по отношению к точности: искаженная информация или ее ограниченное количество. Мы сравнили нашу специально созданную модель CNN с популярными и стандартными архитектурами глубокого обучения, такими как ResNet18, UnResNet18 (ResNet18 без пропуска соединений), GoogLeNet и LeNet.

Вот что мы обнаружили с помощью нашей собственной модели:

И вот как он сравнивается с некоторыми популярными сегодня моделями в отрасли:

Как видите, независимо от модели, которую мы использовали, плохие данные были более вредными, чем их меньшее количество. Другими словами: маркировка шума влияет на производительность модели больше, чем уменьшение объема. И в этом есть смысл. В конце концов, уменьшение объема данных уменьшает количество хороших данных, в то время как загрязняющие данные также уменьшают количество хороших данных, но заменяют их вредоносными метками.

Теперь, когда мы увидели влияние шума маркировки и уменьшения объема данных на общую точность модели, давайте посмотрим, как эти факторы влияют на точность каждого класса в CIFAR-10.

Чтобы измерить это, мы используем показатель, который мы назвали Индекс воздействия. Сначала мы отметили истинно положительный рейтинг (TPR) для каждого класса на нескольких уровнях в нашем эксперименте. Уровни здесь - это те же проценты, что и на рисунке 1, а именно процент шума или уменьшения данных с 5-процентными интервалами. TPRn_norm и TPRd_norm отражают изменение по сравнению с исходным уровнем при нулевом процентном загрязнении (т. Е. Баллы выше 1 означают улучшение истинно положительного показателя, баллы ниже - более низкие показатели).

Глядя на наш класс самолетов, эти цифры выглядят так:

Индекс воздействия Y-X - это просто мера расстояния между базовой линией и оценкой индукции шума (Y) за вычетом расстояния между базовой линией и оценкой сокращения данных (X). Если вы больше визуальный человек, думайте об этом так:

Проще говоря, Индекс воздействия Y-X - это сокращение от того, насколько больше загрязнения нанесло модели ущерб, чем сокращение данных.

Итак, что мы можем сделать с этим измерением? Что ж, в наших предыдущих статьях мы доказали, что искаженные данные ухудшают точность модели больше, чем меньший объем данных, но также и то, что одни классы страдают больше, чем другие. Мы также узнали, что на эти классы влияют независимо от используемой модели. С помощью этого измерения мы действительно можем количественно оценить, насколько сильно затронута каждая модель и каждый этап нашего эксперимента. Вот как каждая модель показывала результаты через каждые 5% интервала:

(Интересно, что в нашей нестандартной модели сокращение, казалось, было выгодным для классов грузовиков, кораблей, оленей и лягушек, даже при 30% -ном сокращении. Шум, с другой стороны, никогда не был полезен при 30%.)

Вы можете видеть, что больше всего пострадали классы кошек, птиц, оленей и собак, независимо от используемой модели. Тем не менее, последнее, что нам бросилось в глаза, это то, что птица была одним из наиболее затронутых классов. Также совершенно очевидно, что модель LeNet была самой слабой для этого класса, независимо от количества внесенных нами загрязнений. Его производительность при уровне шума всего 5% хуже, чем при 30% у любой другой модели:

И хотя это подчеркивает то, что мы обнаружили в частях 1 и 2 этой серии - что относительная чувствительность классов данных в значительной степени не зависит от модели - также стоит подчеркнуть, что, хотя качество данных является основным фактором точность модели, модель, которую вы выберете, тоже имеет значение.

Некоторые модели, такие как LeNet, очень чувствительны к шуму, тогда как другие модели справляются с ним немного лучше. И, конечно же, несмотря ни на что, качество ваших данных - самый верный фактор точности.

ЗАКЛЮЧЕНИЕ

Итак, что мы узнали о лжи вашим моделям? Для начала мы узнали, что на разные классы влияют по-разному, и разные методы «лжи» также по-разному влияют на эти классы. Мы узнали, что плохие ярлыки гораздо вреднее, чем меньшее количество данных. Отсюда следует, что модели, обученные на неверных данных, сложнее исправить, чем модели, которым просто нужно их больше. Вот и все: независимо от того, сколько времени вы тратите на решение, какие модели использовать для своего проекта, убедитесь, что вы посвятили серьезную энергию тому, чтобы убедиться, что вы передаете ему правильные данные.

И если это означает, что данных меньше, чем вы действительно хотели, ничего страшного. Избегая шума, вы в дальнейшем добьетесь большего успеха. В конце концов, обычно намного проще получить более качественные данные позже, чем работать с загрязнением, которое вы не уловили ранее.