Недавно на arXiv была опубликована статья под названием Атаки с отравлением данных и защита от краудсорсинговых систем, в которой авторы анализируют атаки с отравлением данных на маркировку краудсорсинговых данных. Вот сводка.

Для задач классификации, таких как классификация изображений, требуются большие размеченные наборы данных высокого качества, чтобы создавать модели машинного обучения, обеспечивающие высочайшую производительность. Однако создание этих наборов данных часто бывает сложной задачей, поскольку во многих ситуациях доступны только немаркированные данные, а для маркировки миллионов или даже миллиардов немаркированных элементов потребуется много ручных усилий с участием тысяч людей.

Маркировка наборов данных с помощью краудсорсинга

Одним из вариантов получения меток для элементов немаркированного набора данных является краудсорсинг. Здесь маркировка немаркированных данных выполняется толпой, которая может состоять из тысяч или десятков тысяч человек, также известных как рабочие. Каждый работник получает небольшое подмножество элементов большого набора данных и присваивает этим элементам правильные метки. Когда рабочий процесс помечает все элементы, он отправляет результаты обратно на сервер, который объединяет результаты всех рабочих процессов.

Результаты обычно зашумлены и ненадежны, поскольку каждый работник может ошибаться, а также потому, что работники могут быть предвзятыми. Поэтому один и тот же элемент обычно отправляется разным воркерам, и сервер вычисляет окончательную метку для элемента из всех ответов, которые он получил для этого элемента. Для вычисления правильной метки часто используются так называемые методы обнаружения правды. Эти методы вычисляют взвешенное агрегирование всех результатов. Вес обычно зависит от качества результатов работника и надежности работника. Чем выше надежность работника, тем большее влияние результат работника оказывает на конечную этикетку. Чем надежнее рабочий, тем больше вес. Существуют различные подходы к оценке надежности работника. Например, работник может быть оценен как надежный, если результаты, возвращаемые работником, не слишком сильно отклоняются от результатов большинства.

Большинство методов агрегирования были разработаны, чтобы сделать процесс маркировки более устойчивым к шуму, вносимому ошибками и предвзятостью. Однако многие из них не учитывают тот факт, что могут существовать злоумышленники, которые могут намеренно назначать неправильные метки элементам с целью снижения производительности модели машинного обучения.

Влияние отравления на краудсорсинговую маркировку

Сообщество машинного обучения показало, что эти так называемые атаки отравления могут оказать значительное влияние на краудсорсинговые решения для маркировки наборов данных. Однако комплексных исследований не существует. Например, большинство существующих исследований фокусируются на категориальных функциях и не изучают влияние отравления атак на другие типы функций.

В этой исследовательской статье авторы хотят заполнить этот пробел, проанализировав влияние атак отравления на два современных метода обнаружения правды для непрерывных функций. Первый метод — это разрешение конфликтов на разнородных данных, а второй — гауссова модель истинности. Для своего исследования авторы используют синтетический набор данных и два реальных набора эталонных данных. Одним из двух реальных наборов данных является набор данных Emotion. Здесь каждый рабочий получает несколько документов, и для каждого документа рабочий должен назначить значение тональности от -100 до 100. Другой набор данных для чтения — это набор данных Weather, который содержит информацию о прогнозе температуры.

В их экспериментах рассматриваются два сценария. В первом сценарии противник имеет полную информацию, то есть противник знает используемый метод агрегации и все значения, которые присваиваются элементам и передаются на сервер обычными работниками. Авторы утверждают, что, хотя это может показаться сильным предположением, на практике такой сценарий не редкость, поскольку все данные могут быть общедоступными. Например, если задача состоит в том, чтобы собрать локальные данные о погоде, противник может получить всю информацию о погоде от метеослужб. Во втором сценарии противник имеет лишь частичное знание. Злоумышленник по-прежнему знает метод агрегирования, но знает значения только подмножества всех обычных рабочих процессов.

Авторы успешно показывают, что атаки с отравлением данных также могут быть проблемой для маркировки на основе краудсорсинга, когда используются непрерывные функции. Чтобы продемонстрировать эффективность своей атаки, они сравнивают ее с случайной атакой, когда работник присваивает элементам случайные значения, и с максимальной атакой, где просто присваивается максимально допустимое значение. к каждому пункту. Например, показано, что противник, контролирующий 10% рабочих, может увеличить ошибку оценки почти до 94%.

Защита

Наконец, предлагаются две защиты, которые помогают значительно снизить эффект от атак с отравлением данных. В защите «медиана средневзвешенного» сервер разделяет рабочих элемента на разные группы. Затем вычисляется средневзвешенное значение каждой группы, после чего в качестве агрегированного значения элемента выбирается медиана всех групп.

В защите «максимальное влияние оценки» предполагается, что сервер знает цель противника, сколько существует злоумышленников и когда система краудсорсинга подвергается атаке. Обладая этим знанием, защита идентифицирует потенциально вредоносных воркеров и удаляет их результаты.

Авторы показывают, что предлагаемые средства защиты эффективны как в условиях полного знания, так и в условиях частичного знания. С другой стороны, они также показывают, что защита по-прежнему уязвима, если количество злоумышленников значительно возрастает. Например, даже при медиане средневзвешенной защиты средняя ошибка оценки составляет почти 15%, если 30% работников являются злонамеренными.

использованная литература

Фанг, М., Сунь, М., Ли, К., Гонг, Новая Зеландия, Тянь, Дж., и Лю, Дж. (2021). Атаки с отравлением данных и защита от краудсорсинговых систем. препринт arXiv arXiv:2102.09171.