CNN с шумными этикетками! | Исследовательская статья

Хорошо! Я читал эту исследовательскую статью h ttps: //arxiv.org/pdf/1703.08774.pdf и там произошло нечто неожиданное! Я подумал о том, чтобы протестировать его сам, и был действительно шокирован, увидев результаты.

Этот документ «Кто что сказал: моделирование отдельных специалистов по маркировке улучшает классификацию» представлен Мелоди Ю. Гуан, Варуном Гульшаном, Эндрю М. Даем и «Крестным отцом ML» - Джеффри Э. Хинтоном.

В этой статье были выявлены некоторые результаты, которые не все будут готовы усвоить, если они не будут доказаны. Вот некоторые из них:

Обучите MNIST с 50% неправильными метками и все равно получите 97% точность.
Больше этикетировщиков не означает более точную маркировку данных.

В этой статье мы докажем, что обучение MNIST на 50% зашумленных этикетках дает точность 97% +. Мы будем использовать студию Deep Learning от Deepcognition.ai, чтобы ускорить процесс.

Во-первых, позвольте мне показать вам архитектуру нашей модели глубокого обучения для MNIST. Мы будем использовать ту же архитектуру модели, чтобы в первый раз обучить ее истинным этикеткам, а второй раз - с шумными этикетками, чтобы сравнить их точность.

Модельная архитектура

Если вы новичок в Deepcognition, прочтите мою статью, чтобы получить базовое представление об использовании Deep Learning Studio.

Классификация родов ирисов | DeepCognition | Студия Azure ML
Царство: Plantae Clade: Покрытосеменные Отряд: Asparagales Семья: Iridaceae Подсемейство: Iridoideae Племя: Irideae Род: Iris todatascience.com

Давайте нырнем прямо сейчас!

Классификация MNIST с истинными метками

Данные

Истинные данные общедоступны в Deep Learning Studio. Просто выберите mnist-public из наборов данных, как показано ниже.

Результаты тренировки

Наша модель достигла точности 98,01% в наборе для проверки при обучении с правильными метками.

Давайте поэкспериментируем с шумными ярлыками

Данные

Теперь нам нужно использовать данные с 50% неправильными метками. Вы можете скачать его здесь. После загрузки данных загрузите их в свою учетную запись Deepcognition и выберите их на вкладке Данные. Загрузка данных может занять около 28 минут. Успокойся.

Примечание: я неправильно классифицировал 50% изображений из каждого класса. Но ждать! . Это нужно делать только для обучающих данных, что я и сделал. Данные тестирования должны быть указаны с правильными этикетками. Я разделил 80% -20%. Поэтому, когда вы выбираете этот набор данных, выберите только 80% -20% –0% или 80% -0% -20% в наборе проверочного теста на вкладке Данные. Не перемешивайте данные так как мы потеряем наши правильные данные обучения.

Не забудьте выбрать «Нормализация» изображений, иначе наша функция потерь не будет сходиться (даже если все метки верны).

Обучение

После обучения наша модель достигла 51,67% точности обучения, тогда как 97,59% точности проверки!

Так что да, я наконец подтвердил, что даже с 50% неправильными этикетками у нас может быть высокая точность.

Это было потрясающе! Я настаиваю, чтобы каждый повторил эти результаты самостоятельно!

Спасибо за чтение!

Удачного глубокого обучения!

CNN с шумными этикетками! | Исследовательская статья | Студия глубокого обучения |

Вопросы по теме