Пристрастная модель, Пристрастная ко мне

Предвзятая модель

Это третья часть серии, посвященной теме предвзятых данных, где я в основном касаюсь предвзятых моделей и аналитиков данных. В предыдущем разделе мы в основном упоминали данные, созданные человеком, но это не единственный для нас источник данных в мире больших данных. Мы по-прежнему собираем данные с разных веб-сайтов, используем щелчки или движения мыши в качестве ценных данных для обучения наших моделей. Несмотря на то, что это все еще можно рассматривать как данные, созданные человеком, в этом генерации данных наши машины направляют нас большую часть времени для кликов и страниц, на которые мы входим.

Что приводит к предвзятости модели?

Алгоритмы рекомендаций - один из популярных примеров, относящихся к этой категории. Многие люди признают, что эти алгоритмы создают тенденцию к популярности модели, вызванную петлей обратной связи [1]. Как это бывает? Всегда есть несколько товаров, которые становятся популярными благодаря кликам определенной части людей. Эти популярные товары рекомендуются всем, не обращая внимания на другие товары, которые могут быть интересны определенным потребителям. Люди реагируют на рекомендуемые тенденции, и эти действия записываются, а затем передаются в алгоритм как новые данные для обучения.

Мы знаем, что рекомендательные системы и системы онлайн-рекламы используют методы совместной фильтрации (CF) с обратной связью. В статье [1] авторы обсуждают, как CF усиливает предвзятость из-за итераций и приводит к таким проблемам, как изменение представления вкусов пользователей или гомогенизация. Изменение представления о предпочтениях пользователей может закончиться удалением их истинных предпочтений из рекомендаций рекомендательных систем и плохой производительностью. Гомогенизация происходит, когда одна группа доминирует над другой группой меньшинства, в этом случае рекомендации не будут учитывать эту группу меньшинства и будут основаны на группе большинства людей. Вот почему я называю это смещением модели, потому что проблема здесь не в данных, а в системе, которая использует данные ненадлежащим образом и вызывает смещение в модели.

Сила в руках моделистов!

В этой части я хотел бы кратко обсудить, как подход моделиста может вызвать смещение в моделях. Мы должны признать, что при создании модели вся сила находится в руках людей, аналитиков, создающих модель. Одно простое действие творца могло закончиться нежелательными последствиями. Например, пропущенные переменные - одна из распространенных причин смещения моделей, которые могут быть вызваны аналитиками данных.

Исследователи в статье [5] пытаются идентифицировать пациентов с высоким риском смерти, страдающих пневмонией, чтобы решить, следует ли их госпитализировать или лечить амбулаторно. В конце концов, их модель классифицировала пациентов с пневмонией, страдающих астмой, в категорию смерти с низким риском. Этот результат заинтересовал как врачей, так и исследователей в этой области. Они исследовали свою модель и данные, пока не обнаружили, что один сценарий / переменная не включена в данные. Пациенты, страдающие как астмой, так и пневмонией, поступают напрямую в отделение интенсивной терапии. Однако в данных эта информация отсутствовала; одна переменная была опущена, что было очень важно для модели.

Кроме того, иногда дата-сайентист начинает строить модель, чтобы подтвердить какую-то гипотезу. В этом случае разработчик модели с самого начала предвзято; они собирают данные и проектируют модель так, чтобы она была подходящей для подтверждения их предыдущей идеи. В таких случаях специалисты по обработке данных иногда удаляют образцы или переменные, которые не позволяют им получить желаемый результат. В большинстве случаев такая модель страдает от предвзятых результатов, поскольку она предназначена для предвзятости.

Другие части сериала:

Хотел бы услышать ваше мнение о моей статье.

[1] Масуд Мансури, Химан Абдоллахпоури, Николай Печеницкий, Бамшад Мобашер, Робин Берк. В обратной связи и усилении смещения в рекомендательных системах, 2020.

[2] Алекс Бейтель, Цзилинь Чен, Чжэ Чжао, Эд Х. Чи. В решениях по данным и теоретическим последствиям при состязательном изучении честных представлений, 2017.

[3] Кейт Кроуфорд и Тревор Паглен. В политике изображений в обучающих наборах машинного обучения, 2019.

[4] Джеффри Дастин. В Amazon обнародованы секретный инструмент найма ИИ, который показал предвзятое отношение к женщинам, 2018 год.

[5] Рич Каруана, Пол Кох, Инь Лу, Марк Штурм, Йоханнес Герке, Ноэми Эльхадад. In Intelligible Models for HealthCare: Predicting Pneumonia Risk and Hospital 30-day refmission, 2015.

[6] Лоуренс Харт. Какие данные вы будете скармливать своему искусственному интеллекту? Февраль 2018.

[7] Адриан Бентон, Маргарет Митчелл, Дирк Хови. В многоцелевом обучении для психического здоровья с использованием текста социальных сетей, 2017.

[8] Х. Танковская. В Twitter: количество монетизируемых ежедневно активных пользователей в США в 2017–2020 гг., 2021 г.

[9] Прабхакар Кришнамурти. In Understanding Data Bias.Types and sources of data bias, 2019.

[10] Брайан Ху Чжан, Блейк Лемуан, Маргарет Митчелл. В книге «Устранение нежелательных предубеждений с помощью состязательного обучения», 2018 г.

[11] Маргарет Митчелл. В предвзятом отношении к видению и языку искусственного интеллекта, 2021 г.

[12] Джулия Ангвин, Джефф Ларсон, Сурья Матту, Лорен Киршнер, ProPublica. In Machine Bias., 2016.

[13] Лукас Диксон, Джон Ли, Джеффри Соренсен, Нитум Тейн, Люси Вассерман. В измерении и смягчении непреднамеренного смещения в классификации текста, 2017.

[14] ДЖОРДАН ВЕЙСМАНН. В Amazon создали инструмент найма с использованием ИИ Он сразу же начал дискриминацию в отношении женщин., 2018.