Предвзятость в данных

В последние годы успешное применение алгоритмов машинного обучения побуждает каждого владельца бизнеса принимать эту новую технологию и использовать ее для различных целей, таких как реклама, рекомендации, распознавание изображений и т. Д. Кроме того, такие алгоритмы и модели становятся надежными партнерами в серьезные области, такие как система здравоохранения, прогнозирование преступности (социальная справедливость), мониторинг занятости / найм [9]. Фундаментальная основа моделей ML / DL - статистика и математика, которые заставляют людей верить в алгоритмы гораздо больше, чем раньше. Однако что является важным в создании моделей искусственного интеллекта? Это не математика или статистика, это данные! Потому что эти модели (рассмотрим контролируемые модели) создаются путем предоставления входных и выходных данных и нахождения взаимосвязи между этими двумя с помощью обучающей модели для каждой отдельной пары вход-выход. Следовательно, наши модели в значительной степени зависят от данных, которые мы используем во время обучения.

В части 1 я представил и привел примеры систематической ошибки данных и ее последствий.

Что приводит к смещению данных?

Вспомним подход американского статистика Эндрю Гельмана к данным: «Самый важный аспект статистического анализа - это не то, что вы делаете с данными, а то, какие данные вы используете». Чтобы снабдить наши нейронные сети или модели данными, мы собираем их либо с помощью человеческого вмешательства (данные, собранные человеком), либо данные, сгенерированные онлайн-системой. В этом случае у всех возникает вопрос, что может вызвать предвзятость данных? Я начну подробно рассказывать о данных, созданных человеком, и их влиянии на алгоритмы и модели.

Во-первых, данные, поступающие с таким источником, могут вызвать смещение активности / реакции, социальное смещение или смещение маркировки. Предвзятость действий / ответов возникает, когда мы собираем данные из социальных сетей, таких как Twitter, Facebook или Instagram, которые не представляют все население, потому что только некоторые люди используют и выражают свои мысли на этих платформах. Например, если мы используем данные Twitter о реакции на вирус COVID-19 в США и увидим, что пользователи Twitter используют все виды защиты от него, наша модель будет рассматривать это как людей, серьезно относящихся к болезни, и распространение вируса будет продолжаться. вниз быстро. Однако мы не учли, что только 21% людей в США активно использовали Twitter в 2019 году [8]. Это означает, что наши данные в твиттере не представляют всю совокупность, и модель будет обучена с использованием предвзятых данных.

Теперь давайте снова рассмотрим данные Twitter, но на этот раз рассмотрим с точки зрения социальной предвзятости. Это то, что мы называем «предвзятостью в представлении данных» [11]. Это означает, что у нас есть подходящий объем данных для каждой группы, но настроения для них разные; не все они описаны положительно. Рассматривая предыдущий пример, в Twitter к 2019 году было зарегистрировано 68 миллионов активных пользователей в США, что по-прежнему является огромным объемом данных [8]. Если в своих твитах они упоминают расистские или сексистские термины и модель обучена на этих данных, наша машина сделает вывод, что расизм или сексизм - это нормальное явление, и, скорее всего, усилит этот социально неэтический подход в рабочем процессе. Мы можем получить 95% точности в наших прогнозах, но наша модель не будет считаться этичной и будет дискриминировать группы людей.

Кроме того, разметка данных - одна из основных причин предвзятости моделей. Один из самых важных наборов данных в истории искусственного интеллекта и компьютерного зрения, названный ImageNet, включал проблемную категорию «Человек», которая была удалена позже. Однако следует отметить, что в Интернете на протяжении десятилетий велись споры об одной и той же категории [3]. Этот набор данных был впервые представлен в 2009 году и предназначался для идентификации объектов. Однако для проведения некоторых экспериментов исследователи использовали изображения людей, которые, как позже выяснилось, были классифицированы некорректно. Например, толстый мальчик был классифицирован как «неудачник», или мужчина, держащий пиво, был классифицирован как «алкоголик» или «плохой человек» [3]. Это показывает, что данные сильно зависели от аннотаций, которые делали люди, и эти аннотации были явно предвзятыми.

В заключение можно выделить 2 основные причины систематической ошибки данных. Собранные данные не представляют всю совокупность. Он не является рандомизированным, он не включает некоторые важные переменные для моделирования, или данные, созданные человеком, содержат некоторую предвзятость в отношении группы людей.

Другая часть серии:

Буду признателен, если вы поделитесь своим мнением по поводу статьи.

[1] Масуд Мансури, Химан Абдоллахпоури, Николай Печеницкий, Бамшад Мобашер, Робин Берк. В обратной связи и усилении смещения в рекомендательных системах, 2020.

[2] Алекс Бейтель, Цзилинь Чен, Чжэ Чжао, Эд Х. Чи. В решениях по данным и теоретическим последствиям при состязательном изучении честных представлений, 2017.

[3] Кейт Кроуфорд и Тревор Паглен. В политике изображений в обучающих наборах машинного обучения, 2019.

[4] Джеффри Дастин. В Amazon обнародованы секретный инструмент найма ИИ, который показал предвзятое отношение к женщинам, 2018 год.

[5] Рич Каруана, Пол Кох, Инь Лу, Марк Штурм, Йоханнес Герке, Ноэми Эльхадад. In Intelligible Models for HealthCare: Predicting Pneumonia Risk and Hospital 30-day refmission, 2015.

[6] Лоуренс Харт. Какие данные вы будете скармливать своему искусственному интеллекту? Февраль 2018.

[7] Адриан Бентон, Маргарет Митчелл, Дирк Хови. В многоцелевом обучении для психического здоровья с использованием текста социальных сетей, 2017.

[8] Х. Танковская. В Twitter: количество монетизируемых ежедневно активных пользователей в США в 2017–2020 гг., 2021 г.

[9] Прабхакар Кришнамурти. In Understanding Data Bias.Types and sources of data bias, 2019.

[10] Брайан Ху Чжан, Блейк Лемуан, Маргарет Митчелл. В книге «Устранение нежелательных предубеждений с помощью состязательного обучения», 2018 г.

[11] Маргарет Митчелл. В предвзятом отношении к видению и языку искусственного интеллекта, 2021 г.

[12] Джулия Ангвин, Джефф Ларсон, Сурья Матту, Лорен Киршнер, ProPublica. In Machine Bias., 2016.

[13] Лукас Диксон, Джон Ли, Джеффри Соренсен, Нитум Тейн, Люси Вассерман. В измерении и смягчении непреднамеренного смещения в классификации текста, 2017.

[14] ДЖОРДАН ВЕЙСМАНН. В Amazon создали инструмент найма с использованием ИИ Он сразу же начал дискриминацию в отношении женщин., 2018.