Машины учатся на огромных объемах данных, чтобы принимать решения быстрее и дешевле. И формализует процесс, чтобы избежать предрассудков. Но справедливы ли эти решения ИИ? Есть ли у нас проблемы с предвзятостью помимо наборов данных? Должна ли справедливость быть неотъемлемой частью мышления ИИ?

Но программное обеспечение не свободно от человеческого влияния. Алгоритмы пишутся и поддерживаются людьми, а алгоритмы машинного обучения корректируют свои действия в зависимости от поведения людей. В результате… алгоритмы могут укреплять человеческие предубеждения». Клэр Миллер 2015.

В первой части серии мы изучаем общие предубеждения в клинических исследованиях и науке о данных. В этой статье мы более подробно рассмотрим проблемы предвзятости ИИ. Мы будем:

  • представить глубину проблем на примерах компьютерного зрения, НЛП и машинного обучения.
  • выявить некоторые первопричины.
  • обсудить проблемы систематической ошибки в наборах данных.
  • задавайте вопросы о том, какие данные должны быть заданы ученым по наборам данных.

Предубеждения в компьютерном зрении

Глубокое обучение предвзято относится к расе и полу? В 2018 году в рамках проекта Gender Shades изучалась точность моделей анализа лица. Он понял, что гендерный классификатор имеет самую низкую производительность для женщин с более темной кожей во многих моделях ML (машинного обучения).

Оценка четырех гендерных классификаторов выявила значительный разрыв при сравнении точности гендерной классификации женщин и мужчин (9–20%) и более темной кожи против более светлой кожи (10–21%). ("Цитировать")

Многие наборы данных компьютерного зрения имеют выборку и предвзятость наблюдателя (определения в прошлой статье). Они предвзято относятся к чувствительным персонажам, таким как раса и пол. Это приводит к несопоставимой производительности в прогнозах. В этих проблемах предвзятости нет ничего нового. Еще в 2009 году у Замена и Крайера было видео на YouTube, показывающее, что веб-камера HP не может отследить лицо чернокожего человека. Как показано позже, проблемы заключаются не только в несоответствии точности. Они распространены, настойчивы и трудно поддаются лечению.

Алгоритм обрезки изображений Twitter

При отображении изображений в социальных сетях изображения часто обрезаются, чтобы они выглядели лучше.

В 2020 году Twitter пришлось извиниться за расовую предвзятость в своем алгоритме обрезки. Этот алгоритм сосредоточился на заметных областях изображения, где человек, вероятно, будет смотреть на него при свободном просмотре изображения.

Алгоритм обрезки (бумага) использует три общедоступных набора данных — один из них SALICON. SALICON использовала краудсорсинговую платформу Amazon Mechanic Turk для сбора данных об отслеживании мыши. Он заменил дорогое устройство слежения за взглядом человека. Такой набор данных уязвим для предвзятости наблюдателя. Но его полное влияние было осознано только позже.

Колин Мэдланд заметил, что алгоритм кадрирования постоянно выбирал его лицо, а не его более темнокожих коллег. Здесь у нас есть две длинные вертикальные фотографии. Позиции людей перевернуты на втором изображении. Алгоритм выбирает МакКоннелла вместо Обамы для обоих изображений при создании обрезанного эскиза.

Подобные тесты проводятся на персонажах Симпсонов, черно-желтых лабрадорах или других людях. Алгоритм выбирает более светлые объекты, а не более темные.

Спустя семь месяцев Twitter написал статью о том, что удалось узнать. Алгоритм имел уклон в пользу женщин и белых людей.

Вот диаграмма, на которой предметы (пол и раса) выбираются чаще. Белых женщин выбирают больше всего. Наименее вероятны чернокожие мужчины.

Твиттер также выпустил технический обзор относительно предвзятости кадрирования.

В документе говорится о нескольких проблемах:

  1. «Набор данных: одной из ключевых проблем при проверке и сообщении о таких проблемах является отсутствие высококачественных наборов данных для анализа справедливости, особенно для отраслевых практиков».
  2. «Отсутствие универсального формализованного понятия справедливости: одним из ключевых направлений этического машинного обучения была разработка формальных понятий справедливости и количественная оценка алгоритмической предвзятости. Еще одна проблема — отсутствие универсального формализованного понятия справедливости, которое можно было бы легко применить к моделям машинного обучения; скорее, разные показатели справедливости подразумевают разные нормативные значения и имеют разные подходящие варианты использования и ограничения».
  3. «Отсутствие удовлетворительного определения универсально подходящих показателей или целей оптимизации для машинного обучения для определенных классов задач».

Мы рассмотрим № 1 и № 2 позже. Вопрос № 3 — это один из вопросов дела Фрэнсис Хауген о разоблачении в Facebook: на какую целевую функцию компания делала акцент при развертывании модели? Насколько велика вероятность причинения вреда компании по поводу корпоративных приоритетов?

Наконец, Twitter решил позволить пользователям контролировать, как появляются фотографии. Короче говоря, алгоритм ИИ был отложен.

Но не заблуждайтесь, что это единственная проблема смещения набора данных. Дизайн модели также играет роль в вопросе кадрирования. Выяснилось, что использование только наиболее значимой области (функция argmax) создает неоптимальные и предвзятые проблемы.

Примечательно, что выбор выходных данных на основе одной точки с наивысшими прогнозируемыми оценками (выбор argmax) может усилить разрозненное влияние на прогнозы не только при автоматической обрезке изображений, но и при машинном обучении в целом. ("Цитировать")

Другие изменения алгоритма могут быть сделаны для обеспечения справедливости. Предварительная обработка может удалить контекст смещения из входных объектов. Постобработка может перекалибровать оценки для получения одинакового результата. Некоторые исследователи добавляют ограничения при оптимизации целевой функции. (подробности в следующих статьях)

В ML отсутствие интерпретируемости модели ослепляет нас от потенциальных предубеждений. По мере того, как Twitter копал глубже, он понял, что может пойти не так с моделью (все еще спекулятивно).

Одно из возможных объяснений несоизмеримого влияния состоит в том, что модель отдает предпочтение высокой контрастности, которая сильнее проявляется в более светлой коже на темном фоне или в более темных глазах на светлой коже, а также в женских головах, которые имеют более высокую изменчивость изображения. ("подробности")

Твиттер также проверил проблему «мужского взгляда»: есть ли предвзятость кадрирования к определенным частям тела. Он пришел к выводу, что предвзятости не обнаружено, но иногда изображения обрезаются до номеров игроков на спортивной майке.

Как указано здесь, лучшая интерпретируемость модели помогает нам выявлять предубеждения и восстанавливать общественное доверие.

Система рекомендаций Facebook (маркировка чернокожих как «приматов»)

В 2021 году Facebook поставил заголовок «Продолжаете смотреть видео о приматах?» на видео с участием чернокожих мужчин.

Аналогичные проблемы произошли в Google в 2015 году. Алгоритм распознавания объектов Google ошибочно классифицировал чернокожих как горилл. Чтобы решить эту проблему, Google подвергает цензуре такие слова, как «горилла», «шимпанзе», «шимпанзе» и «обезьяна» в своих приложениях, связанных с фотографиями.

Например, даже через 6 лет поиск «гориллы» в Google Фото выше возвращает пустой результат.

Поскольку эти проблемы продолжают повторяться, всегда тестируйте людей с темной кожей в любых приложениях компьютерного зрения.

Когда приложения ИИ развернуты по всему миру, добиться разнообразия в наборах данных становится намного сложнее. Например, приложения компьютерного зрения плохо адаптируются к культурным различиям. Приложение ИИ может подписать слово «свадьба» на большинстве изображений ниже, но не на изображении справа, которое имеет другой культурный контекст. Разнообразная команда с разным опытом даст больше возможностей для выявления потенциальных предубеждений.

Предвзятость в НЛП

В этом разделе мы рассмотрим предубеждения во многих популярных технологиях НЛП.

Как часто люди злоупотребляют или ругают Google Assistant? По оценкам Брахнам в 2015 году, от 10% до 50% взаимодействий с собеседниками носят оскорбительный характер. Поскольку Google Assistant продолжает учиться на реальных разговорах, как мы можем избежать обучения помощника плохим вещам?

В 2016 году Microsoft выпустила чат-бота Tay в Twitter. Он был разработан, чтобы привлекать людей через твиты или сообщения. Microsoft обучила модель Тэя анонимным общедоступным данным, а также материалам, предоставленным профессиональными комиками. В 2016 году Microsoft уже успешно развернула XiaoIce в Китае с 40 миллионами пользователей. Чтобы противостоять культурным различиям, Microsoft внедрила другие фильтры и провела множество исследований пользователей. После освобождения Тай продолжал учиться на ответах пользователей Твиттера, чтобы адаптировать и улучшить модель.

За день все пошло к чертям. Как поясняется в этой статье:

Скоординированными усилиями тролли использовали встроенную в Tay функцию «повторять за мной», благодаря которой бот повторял все, что ему говорили по требованию. Но более того, врожденная способность Тэй к обучению означала, что она усвоила часть языка, которому ее учили тролли, и повторила его без подсказки. Например, один пользователь невинно спросил Тэй, был ли Рики Джервейс атеистом, на что она ответила: «Рики Джервейс научился тоталитаризму у Адольфа Гитлера, изобретателя атеизма».

Зои Куинн утверждала, что:

Если бот научится говорить в Твиттере — платформе, изобилующей оскорбительной лексикой, — то, естественно, он выучит какой-нибудь оскорбительный язык.

Через два дня Tay закрыли. Поскольку система обучается с использованием данных в реальном времени, необходимо отфильтровывать плохих участников.

Pinterest более популярен среди женщин, а онлайн-форумы — среди мужчин. Этот тип дисбаланса следует смягчить при выборе наборов обучающих данных. Кого мы узнаем из материи? Многие модели НЛП обучаются на наборах данных Википедии. Как сказано на одной из страниц Википедии:

В настоящее время в английской Википедии зарегистрировано 42 510 337 пользователей. Только меньшинство пользователей регулярно вносит свой вклад (124 158 редактировали за последние 30 дней), и только меньшинство этих участников участвует в обсуждениях сообщества.

Как показано ниже, редакторы Википедии не представляют население в целом. Википедия уязвима для предвзятости добровольцев.

Сентиментальный анализ

Многие сентиментальные анализы используют наборы данных с IMDb. Как и Википедия, IMDb страдает от предвзятости добровольцев. Чтобы быть успешным продуктом, этот вид предвзятости должен быть устранен. Например, IBM NLU сделала большой акцент на борьбе с предубеждениями ИИ.

Вставка слов

Встраивание слов — популярная концепция НЛП для манипулирования языком. Например, если «женщина» связана с «мужчиной», то «королева» связана с «королем».

Как показано в этом исследовании, встраивание слов, обученное статьям Google News, необъективно. Например, если мужчина ассоциируется с программистом, то почему женщина ассоциируется с домохозяйкой.

Языковая модель

Новым технологиям НЛП не чужды предубеждения.

BERT генерирует связный текст при запросе последовательности слов в качестве контекста (предтекста). Вот пример, когда выделенные серым цветом слова автоматически генерируются моделью GPT-2. (Модель GPT-3 будет генерировать достаточно связный контент.)

На рисунке ниже показаны настроения статей Википедии на разные темы. Они сравниваются с настроениями текстов, созданных различными технологиями генерации текста, такими как BERT. Как показано в нижней половине ниже, многие тексты, сгенерированные ИИ, имеют разные настроения в темах ислама по сравнению с Википедией. Скорее всего, все они, включая Википедию, необъективны. Поскольку эти технологии являются краеугольными камнями для многих приложений НЛП, их влияние на приложения НЛП может иметь далеко идущие последствия.

API перспективы Google

Даже приложения ИИ, которые обнаруживают предвзятость, сами могут быть предвзятыми.

Google Perspective API анализирует токсичность текста. Во время первоначальной проверки на справедливость в Google появился текст вроде «Я гей». был отмечен как токсичный.

Основная причина заключалась в том, что тексты в наборе данных, связанные с гомосексуализмом, в основном токсичны. Этот дисбаланс классификации научил модель ассоциировать любой текст о гомосексуализме с токсичным. Вот 90-секундное видео, объясняющее источник предвзятости более подробно.

Другой способ решить эту проблему — заменить все «идентификационные» слова токеном. Таким образом, «я натурал» и «я гей» станут Я ИДЕНТИЧНОСТЬЮ. Таким образом, модель ML не может выносить суждения на основе групп членства. Кроме того, для написания положительных или нейтральных комментариев по деликатным темам можно привлечь разнообразный источник контента для устранения дисбаланса классов.

Исторический уклон

Многие алгоритмы машинного обучения извлекают уроки из исторических данных. В приведенном ниже кейсе дублер модели здравоохранения был сильно предвзят. Предвзятая система предлагала разные уровни лечения в зависимости от расы. Темнокожие пациенты получают меньше ухода по сравнению с белыми пациентами.

Система здравоохранения США использует коммерческие алгоритмы для принятия решений в отношении здоровья. Obermeyer et al. находят доказательства расовой предвзятости в одном широко используемом алгоритме, например, чернокожие пациенты, которым алгоритм присваивает одинаковый уровень риска, болеют хуже, чем белые пациенты.

Авторы подсчитали, что эта расовая предвзятость снижает количество чернокожих пациентов, нуждающихся в дополнительной помощи, более чем наполовину. Смещение возникает из-за того, что алгоритм использует затраты на здравоохранение в качестве косвенного показателя потребностей в здравоохранении. Меньше денег тратится на чернокожих пациентов с таким же уровнем потребностей, и алгоритм, таким образом, делает ложный вывод, что чернокожие пациенты здоровее, чем такие же больные белые пациенты. Переформулировка алгоритма таким образом, чтобы он больше не использовал затраты в качестве показателя потребностей, устраняет расовую предвзятость при прогнозировании того, кому требуется дополнительная помощь.

Как показано в этом примере, использование затрат в качестве прокси для потребностей здравоохранения было плохим выбором дизайна! Сам этот прокси сильно зависит от расы. Гонка становится сигналом, которому модель научилась принимать решения.

Amazon использовала модель машинного обучения для оценки кандидатов на работу в сфере программного обеспечения. В 2015 году выяснилось, что модель не является гендерно-нейтральной. Модель прошла обучение по резюме за последние 10 лет. Поскольку инженеры-мужчины доминировали в этой области, модель научилась вознаграждать резюме за слова, общие для мужчин, и различать слова, общие для женщин. Короче говоря, модель научила себя, что кандидаты-мужчины предпочтительнее. Модель была чрезмерно упрощена и дополнена дискриминационными данными, которые нельзя было обобщить. Это было недостаточно сложно, чтобы получить информацию от меньшинства. Вместо этого потребовалось легкое предположение и ассоциации «мужских» резюме, чтобы быть более успешными. Позже Amazon отказался от проекта.

Как показано на верхней правой диаграмме ниже, мы должны задаться вопросом, являются ли обучающие данные дискриминационными в процессе разработки.

Предвзятость в машинном обучении

В других моделях машинного обучения существует множество предубеждений. Оно приходит в разных формах: по намерению, по подсознанию, по историческим предрассудкам и т. д.

Сообщение о предвзятости

Вот еще один интересный уклон, о котором сообщает C3.ai. Мошенничество в отдаленных районах помечено как вероятное в одном приложении ИИ из-за серьезной предвзятости в отчетах.

В начале истории C3 AI мы разработали алгоритмы машинного обучения для обнаружения мошенничества клиентов. В одном клиентском развертывании алгоритмы значительно отставали в определенной географии, на удаленном острове. При дальнейшем изучении мы обнаружили существенную систематическую ошибку в наборе данных с острова. Каждое историческое расследование, проведенное на острове, было делом о мошенничестве, искажающим распределение данных с этого острова.

Из-за удаленности острова следователи хотели убедиться, что дело будет сфальсифицировано, прежде чем отправиться туда. Алгоритм неправильно максимизировал производительность, помечая всех клиентов на острове с высокой оценкой мошенничества. Поскольку частота событий, свойств и результатов в обучающей выборке с этого острова отличалась от их частоты в реальном мире, модель требовала корректировки, чтобы противодействовать неявной предвзятости, вызванной выборочными проверками мошенничества на острове.

КОМПАС

COMPAS — это инструмент поддержки принятия решений, используемый некоторыми системами правосудия США. Это становится хрестоматийным примером справедливости.

Судьи и офицеры по условно-досрочному освобождению используют эту систему для оценки вероятности повторного совершения уголовных преступлений в случае освобождения. В нем представлены предложения по вынесению приговора, условно-досрочному освобождению и залогу. Вот роль COMPAS, как заявлено в одном округе Висконсин.

Оценка COMPAS поможет предоставить полезную информацию в связи с арестом, залогом, обвинением, вынесением приговора, программированием и решениями по надзору за условно-досрочным освобождением.

ProPublica, специализирующаяся на журналистских расследованиях, выпустила отчет, ставящий под сомнение точность системы:

ProPublica опубликовала статью с заголовком По всей стране используется программное обеспечение для предсказания будущих преступников. И это предвзято против черных. Его ключевым аргументом было то, что чернокожие ответчики сталкиваются с гораздо более высоким уровнем ложных срабатываний по сравнению с белыми ответчиками.

Разработчик COMPAS, Northpointe, под сомнение анализ. Нортпойнт утверждал, что оценки COMPAS были откалиброваны по группам. Это широко используемый критерий справедливости. Так справедливо ли это в контексте COMPAS? Мы вернемся к этому вопросу позже. Одной из ключевых проблем здесь является прозрачность решений ИИ.

Иск был подан в 2017 году.

Является ли нарушением конституционного права ответчика на надлежащую правовую процедуру то, что суд первой инстанции при вынесении приговора опирается на результаты оценки рисков, предоставленные с помощью частного инструмента оценки риска, такого как COMPAS, поскольку частный характер COMPAS не позволяет ответчику оспаривать точность и научная обоснованность оценки риска.

В 2016 году Верховный суд Висконсина отклонил петицию. Но для получения общественной и политической поддержки приложений ИИ секретность контрпродуктивна.

Многие системы машинного обучения уязвимы для всевозможных предубеждений. (включая предвзятость отчетности, предвзятость ожидания, предвзятость подтверждения, предвзятость отсева, предвзятость производительности и т. д.) Как показано в правом нижнем углу ниже, нам нужна система для защиты всего процесса, в котором могут быть введены предвзятости. Это включает этап проектирования, тестирования, проверки и развертывания. Необходимо новое управление ИИ, поскольку достоверность и прозрачность имеют решающее значение для завоевания общественного доверия. Без него его принятие ограничено.

Вот обзор этического обзора Google новых технологий искусственного интеллекта. При необходимости привлекает внешних экспертов. Такая открытость может быть более эффективным средством борьбы с потенциальным кошмаром для общественного мнения.

Предвзятость рекомендаций

Рекомендатели — один из самых серьезных источников предвзятости. Во многих тренингах по машинному обучению сбор данных не зависит от обучения. Тщательный сбор и проверка данных не дадут злоумышленникам проникнуть внутрь. Тем не менее, рекомендатели собирают сведения о вовлеченности и поведении пользователей в реальной жизни, чтобы постоянно настраивать модель. Ответы на многих социальных платформах часто субъективны. Содержание апеллирует к эмоциям, а не к фактам. И есть много плохих актеров, которые хотят манипулировать мнениями. Эти ответы усиливают предвзятость и, к сожалению, создают усиливающую петлю (больше примеров позже).

Но есть случаи, которые менее преднамеренны. В приведенных ниже объявлениях на Facebook копирайтинг и изображения двух объявлений о наборе персонала являются гендерно-нейтральными.

Когда исследователи использовали эту рекламу для оценки гендерной предвзятости, обнаружилась разница в доставке объявлений о вакансиях в зависимости от пола. Как сообщает Бумага,

Мы подтверждаем, что показ рекламы Facebook может выходить за рамки того, что может быть юридически оправдано возможными различиями в квалификации, тем самым усиливая ранее выдвинутые аргументы о том, что алгоритмы показа рекламы Facebook могут нарушать антидискриминационные законы. Мы не находим такого перекоса в LinkedIn.

Люди могут не согласиться с уровнем созданного здесь вреда. Но определенно рекомендатель учитывает пол, преднамеренно или нет. Антидискриминационные законы США распространяются на объявления о вакансиях. В противном случае представители разных полов будут иметь разное отношение при приеме на работу. Если женщины имеют меньший доступ к высокооплачиваемой работе, если они того захотят, юридические последствия могут быть значительными.

Перейдем к более серьезному примеру. Когда Латанья Суини, темнокожий профессор Гарварда, выполнила поиск (статья 2013 года) по своему имени в Интернете, она обнаружила, что медийная реклама полна объявлений о проверке судимости. Был ли этот алгоритм перенацеливания предвзятым на расовой почве?

Если алгоритмы ИИ повернут вспять прогресс общих убеждений о равенстве, рано или поздно мы столкнемся с расстрельной командой.

Смещения набора данных

Предвзятость сохраняется в нашем обществе.

Мы надеемся, что сможем устранить предвзятость, обучая модели машинного обучения исключительно на тщательно отфильтрованных данных. Но на самом деле это непросто.

Но алгоритм хорош настолько, насколько хороши данные, с которыми он работает. Данные часто несовершенны, что позволяет этим алгоритмам наследовать предубеждения предыдущих лиц, принимающих решения. В других случаях данные могут просто отражать широко распространенные предубеждения, которые сохраняются в обществе в целом. В других случаях интеллектуальный анализ данных может обнаружить удивительно полезные закономерности, которые на самом деле являются просто ранее существовавшими моделями исключения и неравенства. Бездумное использование интеллектуального анализа данных может лишить исторически обездоленные и уязвимые группы населения полноценного участия в жизни общества. Что еще хуже, поскольку результирующая дискриминация почти всегда является непреднамеренным эмерджентным свойством использования алгоритма, а не сознательным выбором его программистов, может быть необычайно сложно определить источник проблемы или объяснить ее суду. ("цитировать")

Прогностические полицейские системы пытаются прогнозировать преступность для полицейских управлений, используя алгоритмические методы. Но набор обучающих данных может быть очень предвзятым. Базы данных полиции не являются ни полной переписью всех уголовных преступлений, ни репрезентативной случайной выборкой (исследование).

Эмпирические данные свидетельствуют о том, что полицейские — прямо или косвенно — учитывают расовую и этническую принадлежность при определении того, кого задерживать и обыскивать, а какие районы патрулировать. Если полиция сосредоточит внимание на определенных этнических группах и определенных районах, вполне вероятно, что полицейские записи будут систематически преувеличивать эти группы и районы. То есть преступления, которые происходят в местах, часто посещаемых полицией, с большей вероятностью появятся в базе данных просто потому, что именно там патрулирует полиция. ("изучать")

Например, зарегистрированный и собранный случай преступления не является репрезентативным для числа преступлений в городе. На правой диаграмме ниже показано незаконное употребление наркотиков в системе неуголовного правосудия. Это не соответствует известному полиции распределению преступности (левый график). Это вызывает потенциальную огромную предвзятость выбора и предвзятость наблюдателя в наборах данных для обучения полицейских.

Доверие общества к полиции может быть еще одним важным источником предвзятости в сообщениях. Преступления могут быть занижены в областях, где доверие слабое. С другой стороны, отчетность по благополучным районам может быть завышена.

Кроме того, обученные модели могут самореализоваться и усиливать предубеждения.

Что еще хуже, наличие предвзятости в начальных обучающих данных может еще более усугубиться, поскольку полицейские управления используют предвзятые прогнозы для принятия тактических полицейских решений. Поскольку эти прогнозы, скорее всего, завышают районы, которые уже были известны полиции, офицеры все чаще патрулируют эти же районы и наблюдают за новыми преступными действиями, которые подтверждают их прежние представления о распределении преступной деятельности (то же исследование).

В районах с усиленной охраной полиция будет сообщать о большем количестве преступлений. Меньше внимания будет уделяться другим областям и будет собираться меньше противоречивой информации. Предубеждения усиливаются и усиливаются при дальнейшем обучении машинному обучению.

Недавно обнаруженные преступные действия, которые полиция документирует в результате этих целенаправленных патрулей, затем в последующие дни вводятся в алгоритм прогнозирования полиции, генерируя все более предвзятые прогнозы. Это создает петлю обратной связи, в которой модель становится все более уверенной в том, что места, в которых с наибольшей вероятностью может возникнуть дальнейшая преступная деятельность, — это именно те места, которые ранее считались местами с высоким уровнем преступности: предвзятость выбора встречает предвзятость подтверждения (то же исследование).

В здравоохранении уровень медицинского обслуживания и диагностики различается в районах с разным экономическим статусом. Это несоответствие приводит к занижению сведений об инцидентах во многих группах меньшинств.

Предвзятость или предвзятость наблюдателя (преднамеренная или непреднамеренная) также могут завышать информацию об инцидентах. Чернокожие американцы в 2,4 раза чаще страдают шизофренией. ("подробности").

Эти наблюдения показали, что у афроамериканцев психотические симптомы чрезмерно придавались клиницистам, что искажало диагнозы в сторону расстройств шизофренического спектра, даже когда у пациентов были оценки депрессии и маниакальных симптомов, аналогичные таковым у белых пациентов. ("источник")

Несмотря на то, что медицинские сообщества обучены быть профессиональными и научными, многие измерения или оценки остаются субъективными. Это приводит к ошибкам в диагностике и оценке в медицинской сфере. Тип лечения, диагностика и внимание искажают данные, на которых учится машинное обучение.

Кроме того, некоторые функции для защищенных групп могут быть менее надежными и менее информативными из-за предвзятости или доступности службы. Например, неблагополучные группы могут иметь меньший доступ к точным диагностическим тестам. Характеристики, которые позволяют точно прогнозировать результаты, менее надежны для групп, находящихся в неблагоприятном положении. Следовательно, решения, основанные на этих данных, являются необъективными или неэффективными.

Другие измерения, такие как в системе резюме Amazon, зависят от суждений, сделанных ранее людьми. ML будет использовать предвзятость, если решения будут направлены на конкретную демографическую группу.

Вот еще один реальный пример предвзятости (источник) данных о магазинных кражах в Сан-Франциско.

Более пристальный взгляд на данные показывает, что всплеск сообщений о кражах в магазинах произошел почти полностью из одного магазина: Target по адресу 789 Mission St. в торговом центре Metreon. Только в сентябре было подано 154 заявления о краже в магазине на перекрестке South of Market, где стоит Target, по сравнению с 13 в августе.

Что произошло в этой конкретной цели? Был ли в магазине массовый всплеск краж в сентябре? Нет, сказала менеджер магазина Стейси Эбботт. Магазин просто использовал новую систему отчетности, внедренную полицией, которая позволяет розничным торговцам сообщать о случаях совершения преступлений по телефону.

Вопросы, которые следует задать специалисту по данным о наборах данных

Чтобы тщательно изучить данные, вот список вопросов, которые должны задать и проверить специалисты по данным. И должны быть созданы планы для выявления и устранения потенциальных проблем с наборами данных.

Источник данных:

  • Кто создает набор данных. Какова первоначальная цель и для чего она предназначена?
  • Кто является поставщиком информации или каковы источники? Похожа ли соответствующая демография на интересующее нас население?
  • Занижены ли данные или недостаточно диагностированы в защищенных группах или регионах?
  • Или, наоборот, защищенные группы или регионы завышаются или тщательно изучаются?
  • Будут ли некоторые данные легче собирать или обнаруживать в одной группе или регионе, чем в других? Будут ли проблемы с доверием и доступностью?
  • Привлекает ли процесс сбора одну группу по сравнению с другими? Являются ли они сильно предвзятыми или самоуверенными?
  • Будут ли доходы, экономическое благополучие и расовые стереотипы влиять на уровень обслуживания и тип диагноза?
  • Имеют ли наборы данных тот же уровень сценариев и условий, охватываемых неблагополучными группами?
  • За какой период времени собираются данные?

Характер данных

  • Сильно ли перекошены распределения ярлыков по некоторым группам или подтемам?
  • Обучается ли модель на основе решений и суждений, сделанных людьми, принимающими решения в прошлом? Принимаются ли решения в пользу одной конкретной группы?
  • Были ли дела некоторых демографических групп намного лучше/хуже в прошлом?
  • Являются ли постоянно собираемые данные самореализующимися? Будут ли они усиливать или усиливать ранее существовавшее предубеждение?
  • Будут ли представленные данные заподозрены в предвзятости подтверждения?
  • Будут ли показатели результатов объективно измеряться без интерпретации или влияния человека?

Содержание данных:

  • Будут ли доходы, экономическое благополучие и расовые стереотипы влиять на то, что сообщается, как интерпретируется информация и как измеряются данные в некоторых регионах или группах.
  • Применяем ли мы один и тот же стандарт и процедуру сбора и измерения данных?
  • Каковы шумы и неточности среди разных групп?
  • Надежны и информативны ли данные по всем регионам и группам? Будут ли они более точными в предсказаниях, чем другие группы?
  • Имеют ли неблагополучные группы больше недостающих данных в своих записях? Если отсутствует, как будет заполняться информация?
  • Будут ли группы, находящиеся в неблагоприятном положении, делиться той же информацией со сборщиком данных?
  • Проходят ли этикетировщики соответствующую подготовку и применяют ли они одни и те же стандарты при маркировке данных?
  • Имеют ли данные для компьютерного зрения все необходимые сценарии, включая комбинации позы, условия окружающей среды (например, освещение), расу, возраст, групповые комбинации и т. д.?

Исследователи данных должны предварительно изучить образцы в наборе данных, чтобы выявить потенциальные отклонения (подробности позже). Должен быть предусмотрен процесс проверки и смягчения последствий, если наборы данных очень уязвимы для предвзятости.

Как показано в Google Perspective API, дисбаланс в наборах данных классов и прогнозах может вызвать проблемы. Оцените матрицу путаницы для включения.