С самого начала эры машинного обучения одним аспектом, который оставался неизменным, были данные. Наша модель сильно зависит от данных, которые мы используем для обучения нашей модели. Шум в данных может существенно повлиять на различные задачи анализа данных, такие как классификация, кластеризация и анализ ассоциаций. Что, если кто-то попытается манипулировать нашими точками данных? Один из вопросов, который может возникнуть у вас, заключается в следующем: «Ну, как кто-то может манипулировать нашими экземплярами и почему? И даже если кто-то это сделает, разве мы не можем этого увидеть?». Один известный пример, иллюстрирующий это, принадлежит I. Goodfellow et al. в статье «Объяснение и использование состязательных примеров».

Как видно из приведенного выше примера, для нас, обычных людей, изображение с обеих сторон выглядит как Панда. Но когда мы добавляем тщательно созданный шум к реальному изображению, классификатор неверно интерпретирует его. Настолько, что он классифицирует изображение справа как «Гиббон» с достоверностью более 99%. Так что да, в большинстве случаев мы не можем увидеть, манипулируют ли изображением.

Таким образом, теперь можно с уверенностью официально заявить, что состязательные примеры представляют угрозу для безопасности ИИ. Рассмотрим пример самоуправляемого автомобиля. Эти автомобили обычно способны распознавать общие дорожные знаки. Но что, если злонамеренный противник заменит обычный знак «Стоп» другим знаком «Стоп», к которому добавлен некоторый рассчитанный шум, из-за которого эти беспилотные автомобили вместо этого идентифицируют его как смайлик? Это может привести даже к гибели людей. Следовательно, изучение этих атак и создание алгоритмов, устойчивых к этим шумам, является необходимостью часа.

Три основных аспекта используются для оценки производительности этих устойчивых к атакам алгоритмов.

  1. Допуск к шуму. Существует множество видов шума, когда речь идет о враждебных примерах. Массарт-шум, агностический шум, злонамеренный шум, противный шум, и это лишь некоторые из них. Разрабатываемый алгоритм должен быть устойчивым к сильно искаженным данным.
  2. Эффективность вычислений. Целью остается создание алгоритмов, обладающих максимальной полиномиальной временной сложностью. В противном случае реализовать такие алгоритмы нецелесообразно.
  3. Сложность выборки и метки. Последняя оставшаяся цель состоит в том, чтобы алгоритм был эффективен в отношении меток и выборки. Первым шагом к разработке любой модели машинного обучения является сбор данных. Собрав кучу данных, нам нужно соответствующим образом пометить каждый экземпляр, и обычно это делается с помощью краудсорсинга. Это утомительный процесс, и бывают случаи, когда экземпляр неправильно помечен (как люди, мы склонны делать ошибки). Поэтому мы надеемся найти истину, потребовав минимальное количество образцов и этикеток.

Поэтому мы хотели бы построить алгоритм, устойчивый к шуму, эффективный в вычислительном отношении и минимизирующий сложность выборки и сложность метки.

Таким образом, модели машинного обучения необходимо обучать, чтобы полученная модель была устойчива к шуму и давала точные результаты. Шум в наборе данных машинного обучения можно в целом разделить на два типа: (i) шум атрибутов и (ii) шум класса или метки. Шум атрибута — это шум, присутствующий в прогностических атрибутах, а шум метки — шум, присутствующий в целевом атрибуте. Наличие шума в наборе данных может привести к увеличению количества обучающих примеров и увеличению сложности модели. Из исследований известно, что шум этикеток потенциально более вреден, чем шум характеристик.

В литературе предлагаются алгоритмы, специфичные для конкретной модели шума. Ниже приведены некоторые из моделей шума, рассматриваемых при изучении полупространств независимого PAC:

В этой статье мы узнали о шуме и о том, почему для нас важно создавать надежные классификаторы. Мы также кратко обсудили различные виды моделей шума в независимом PAC-изучении полупространств.

Чтобы узнать больше о состязательном шуме, предлагаю вам посмотреть гостевые лекции И. Гудфеллоу на эту тему на YouTube. Есть еще одно видео, в котором Дж. З. Колтер и А. Мадри представляют «Состязательную устойчивость — теория и практика в NeurIPS 2018», которое лично мне показалось полезным. Счастливого обучения :)