Мысли и теория

Шум данных и шум этикеток в машинном обучении

Применение машинного обучения в реальных сценариях требует учета шума в машинном обучении. Вот почему и как с ним бороться.

Мотивация

Почему мы должны заботиться о шуме данных и метках в машинном обучении?
Огромные достижения позволили использовать машинное обучение в различных приложениях. Это должно мотивировать и ускорить исследования и применение, поскольку теперь мы можем стремиться отвечать на действительно важные вопросы - медицина, психология, криминология. Однако эти реальные приложения, как правило, более шумные, чем академические задачи. В медицине, например, высокая вариабельность между и внутри наблюдателей (разные диагнозы одного или нескольких врачей в медицинской выборке) - хорошо известная проблема [1], хотя шум также присутствует в академических наборах данных [2]. С другой стороны, тенденция к более крупным сетям приводит к проблеме запоминания вместо обобщения [3], что также приводит к запоминанию шума.

Эта статья должна побудить коллег-исследователей включить данные и / или пометить шум в свои соображения. Их легко реализовать в современных фреймворках, таких как PyTorch, повысить надежность и реалистичность сценариев, как будет показано ниже. Мой репозиторий на github [4] предоставляет простую основу для шумных экспериментов по машинному обучению в PyTorch.

  1. Введение в шум данных и этикеток
  2. Описание профилей шума данных и этикеток
  3. Защита от шума данных и этикеток
  4. Будущие исследования

Введение в шум данных и этикеток

Предполагается, что данные и шум на этикетке отклоняются от истинного набора данных. Таким образом, шум данных отражает отклонения в данных, т.е. изображения, а шум этикеток отражает отклонения в этикетках.

Симметричный шум этикетки

Случайно выбранный α% метки i изменяется на метку j! = I (также возможно изменение всех меток, включая i) после равномерного распределения для выбора новой метки (см. Рисунок 2). Этот тип шума этикеток отражает общую небезопасность этикетирования, и при малых значениях α его относительно легко преодолеть [5].

Асимметричный шум этикетки Все этикетки

Случайно выбранные α% всех меток i переключаются на метку i + 1 или на 0 для максимального значения i (см. Рисунок 3). Это соответствует реальному сценарию, когда метки случайным образом повреждаются, а также порядок меток в наборах данных является случайным [6].

Асимметричная метка Шум Одна метка

Случайно выбранный α% метки 0 переключается на метку 4, в то время как все остальные метки остаются неизменными (см. Рисунок 4). Это происходит по сценарию смешения двух сложных изображений. Технически эти изображения лежат близко к границе принятия решения.

Шум семантической метки

К этому классу относятся особенно неоднозначные изображения, как предсказывает слабая модель. Для этого набор обучающих выборок D делится на малое множество X ⊂ D и большое множество Y ⊂ D. Слабая модель обучается на X и тестируется на Y. Потери для каждого изображения в Y сортируются таким образом, что Выбираются α% изображений с наибольшими потерями (самые сложные образцы). Их метки переключаются на предсказанную метку из слабого классификатора. Набор Y ’, включая измененные метки, добавляется к X, так что модель обучается на D’ [7,8]. Этот тип шума этикетки особенно трудно преодолеть модели. Это также близко к реальным приложениям, таким как медицинская визуализация, где сложные случаи вызывают неоднозначность в маркировке [9].

Гауссовский шум данных

К тестовым изображениям добавлено нормальное распределение. Его стандартное отклонение и результирующая величина вычисляются относительно отношения сигнал / шум изображения. Таким образом, к каждому изображению добавляется гауссов шум одинаковой относительной величины. Этот шум очевиден в реальных приложениях, например. из-за неисправности камеры.

Шум данных о соли и перце

Случайно выбранный α 2% пикселей переключаются на 0, а α / 2% переключаются на 1. Этот шум может быть вызван, например, неисправными пикселями в камерах и хорошо изучен при обработке изображений [10].

Спекл-шум данных

Распространенный, например, в радиолокационных изображениях, это мультипликативный шум, когда к изображению α x N (μ, σ2) добавляется умноженное на изображение, где N - нормальное распределение.

Пуассоновский шум данных

Эквивалентно гауссовскому шуму данных, можно добавить распределение Пуассона вместо нормального (гауссовского) распределения. Насколько мне известно, это менее широко используется.

Защита от шума этикеток и данных

Зная типы шума в наборе данных, остается стать надежным против шума. В литературе широко рассматриваются зашумленные метки и зашумленные данные. Кратко описаны некоторые стратегии защиты, особенно для шумных этикеток. Есть еще несколько техник, которые нужно открыть и развить.

Оценка неопределенности

На самом деле это не защита, но оценка неопределенности дает ценную информацию в выборках данных. Алеаторический, эпистемический шум и шум этикеток могут обнаруживать определенные типы данных и шум этикеток [11, 12]. Отражение достоверности прогноза является важным преимуществом для автономных систем, особенно в зашумленных сценариях реального мира. Доверие также часто используется, хотя для этого требуются хорошо откалиброванные модели.

Робастные функции потерь

Одно из направлений исследований нацелено на функции потерь, которые не перекрываются на зашумленных образцах. Широко используемая кросс-энтропийная потеря имеет тенденцию к самоуверенности из-за обнуления отрицательных классов. MAE - это простая и довольно надежная функция потерь, хотя и относительно медленная [13].

Надежное обучение

Один из методов - больше учитывать надежность и обобщение в стратегии обучения. В частности, в очень шумной обстановке ранняя остановка оказалась эффективной стратегией, позволяющей не запоминать шум [14]

Будущие исследования

Ниже приведены некоторые идеи для устранения пробелов в исследованиях. В целом, я надеюсь, что эта статья подтолкнула к использованию шума в более широком контексте.

Дополнительные профили шума и их влияние на модель

Очень интересно изучить дальнейшие профили шума. Еще один пример, изученный в моей предыдущей работе, - это шум соперничества. Подобно состязательному примеру, добавляются возмущения, максимизирующие потерю классов, с пересечением или без пересечения границы принятия решения и, таким образом, с переключением метки. Следовательно, данные, например изображение, будут по-прежнему выглядеть одинаково, а классификация очень близка к границе принятия решения. Как и в случае с семантическим шумом, я ожидал, что для модели он будет трудным, хотя его легко обнаружить через эпистемическую неопределенность.

Области применения и влияние шума

Из-за присутствия данных и шума этикеток в реальных приложениях методы, направленные на решение этих задач, также должны быть изучены в присутствии шума. Я рекомендую включать такие профили шума при изучении реальных приложений.

Надежность в машинном обучении

Поскольку машинное обучение внедряется во все больше и больше, в том числе в очень чувствительных областях, надежность становится важным активом. Недавние работы показали, как модели могут причинять вред и оскорбления. Запоминание шума может усилить этот эффект. Поскольку это моя текущая область исследований, я могу только побудить читателя изучить надежность и надежность моделей машинного обучения.

Библиография

[1]: Элмор, Дж. Г., Уэллс, К. К., Ли, К. Х., Ховард, Д. Х. и Файнштейн, А. Р., 1994. Различия в интерпретации маммограмм радиологами. Медицинский журнал Новой Англии, 331 (22), стр.1493–1499.

[2]: Northcutt, C.G., Jiang, L. и Chuang, I.L., 2019. Уверенное обучение: оценка неопределенности в метках наборов данных. Препринт arXiv arXiv: 1911.00068.

[3]: Чжан, К., Бенжио, С., Хардт, М., Рехт, Б. и Виньялс, О., 2016. Понимание глубокого обучения требует переосмысления обобщения. Препринт arXiv arXiv: 1611.03530.

[4]: https://github.com/richtertill/noisy_machine_learning

[5]: Б. ван Ройен, А. К. Менон и Р. К. Уильямсон, «Обучение с симметричным шумом меток: важность того, чтобы быть расстроенным», CoRR, vol. abs / 1505.07634, 2015 г.

[6]: Дж. Бланшар, М. Фласка, Дж. Хэнди, С. Поцци и К. Скотт, «Классификация с асимметричным шумом метки: согласованность и максимальное шумоподавление», 2016 г.

[7]: К. Ли, С. Юн, К. Ли, Х. Ли, Б. Ли и Дж. Шин, «Надежный вывод с помощью генеративных классификаторов для обработки зашумленных этикеток», 2019 г.

[8]: Дж. Ли и С.-Й. Чанг, «Надежная тренировка с ансамблевым консенсусом», 2020 г.

[9]: Дж. Ирвин, П. Раджпуркар, М. Ко, Ю. Ю, С. Чуреа-Илкус, К. Чут, Х. Марклунд, Б. Хаггу, Р. Болл, К. Шпанская, Дж. Сикинс, Д.А. Монг, С.С. Халаби, Дж. К. Сандберг, Р. Джонс, Д. Б. Ларсон, С. П. Ланглоц, Б. Н. Патель, М. П. Лунгрен и А. Ю. Нг, «Chexpert: большой набор данных рентгенограммы грудной клетки с метками неопределенности и экспертным сравнением», 2019 г.

[10]: Р. Панди, «Спекл-шум: моделирование и реализация», т. 9. С. 8717–8727, 01 2016.

[11]: Tomczack, A., Navab, N. и Albarqouni, S., 2019. Научитесь оценивать неопределенность этикеток для обеспечения качества. Препринт arXiv arXiv: 1909.08058.

[12]: Kendall, A., and Y. Gal. «Какие неопределенности нам нужны в байесовском глубоком обучении для компьютерного зрения?» InAdvances в системах обработки нейронной информации, т. 30. 2017.

[13]: Zhang, Z. and Sabuncu, M.R., 2018. Обобщенная кросс-энтропийная потеря для обучения глубоких нейронных сетей с зашумленными метками. Препринт arXiv arXiv: 1805.07836.

[14]: Сонг, Х., Ким, М., Парк, Д. и Ли, Дж. Дж., 2019. Как ранняя остановка помогает обобщению против шума этикеток ?. Препринт arXiv arXiv: 1911.08059.