Да, и это проблема науки о данных.

В последние годы алгоритмическая предвзятость подвергалась все более пристальному вниманию, особенно после публикации в 2016 году превосходной книги Кэти О’Нил Оружие разрушения математики (обязательное чтение для всех, кто хочет сделать карьеру в области науки о данных). Поскольку все больше и больше организаций стремятся использовать постоянно увеличивающийся пул генерируемых данных (обычно упоминаемое число составляет 2,5 квинтиллиона байтов данных каждый день, хотя я не могу найти хороший источник для этой цифры) со сложными и часто непрозрачными моделями машинного обучения , разрушительный потенциал алгоритмической предвзятости только растет.

К сожалению, несмотря на рост осведомленности в некоторых кругах, не похоже, что мы нашли способ справиться с проблемами, которые О'Нил обозначила в своей книге. На самом деле, за годы, прошедшие с момента выхода Weapons of Math Destruction, практически ничего не произошло, кроме роста в отраслях и сценариях использования. Еще в 2016 году О'Нил обсуждал проблемы с системами отслеживания кандидатов, программами, которые считывают резюме и другую информацию о кандидатах и ​​автоматически сортируют или дисквалифицируют кандидатов на работу, но системы ATS остаются широко распространенными (используются подавляющим большинством крупных компаний) и рынок САР будет расти. Она выделила некоторые проблемы, связанные с распространением так называемых оздоровительных программ, которые работодатели используют, чтобы попытаться стимулировать здоровое поведение с целью снижения затрат на здравоохранение, но оздоровительные программы по-прежнему популярны, несмотря на растущее количество свидетельств того, что они вероятно, не работают. О'Нил продемонстрировал, что программы охраны горячих точек, такие как CompStat или PredPol, которые якобы стремятся улучшить работу полиции, сосредоточив ресурсы на областях, где наиболее вероятно совершение преступлений, опасно склонны к предвзятости в отношении бедных и меньшинств. сообщества и склонны создавать порочные, самореализующиеся циклы прогнозирования и принуждения, но эти программы все еще используются. Есть ирония в том, что многие полицейские управления, похоже, переосмысливают эти программы, не потому, что они носят крайне дискриминационный характер, а потому, что они считают, что они на самом деле не очень хорошо работают.

Почему мы очень медленно решаем эти вопросы? Во-первых, в некоторых случаях неалгоритмические, человеческие альтернативы сами по себе являются дискриминационными, и неясно, не улучшил ли алгоритм статус-кво. Да, алгоритмические модели, которые сейчас используют многие суды для освобождения под залог и определения приговора, ошибочны и явно предвзято относятся к афроамериканцам, но человеческая альтернатива также предвзята и часто настолько капризна и неровна, что алгоритм может быть лучше.

Другой причиной является широко распространенное представление о том, что алгоритмы и модели машинного обучения каким-то образом нейтральны или справедливы по своей природе. Статистические модели имеют научный вид - разве они не основаны на данных и ничего больше? Когда в новостях поднимается вопрос об алгоритмической предвзятости, все еще легко найти ответы в том смысле, что алгоритмы не могут быть предвзятыми, потому что они движимы математикой. Думать, что алгоритм - это просто часть прикладной математики, и поэтому он не может быть предвзятым, значит в корне неправильно понимать, что такое алгоритм, и для любого, кто работает с данными, важно понимать, почему.

Что такое алгоритм?

Хотя алгоритмы определенно являются математическими инструментами, они не обязательно доказаны безошибочно и недвусмысленно, как теорема. Алгоритм больше похож на стратегию, набор рекомендаций о том, как найти ответ, который, по вашему мнению, в целом будет работать независимо от входных данных. Например, предположим, что я перетасовываю колоду карт, а затем прошу вас вернуть ее в новый порядок колоды, со всеми мастями вместе и расставленными от туза к королю. Как бы вы это сделали? В каком-то смысле нет «ответа» на то, какие конкретные ходы в колоде вам нужно сделать, и вы не могли бы сказать заранее. Вы не можете сказать что-то вроде «Я возьму карту на 15-й позиции и переставлю ее на первую», потому что колода перетасована, и вы не знаете, где находится каждая карта.

Вместо этого вы можете подойти к проблеме алгоритмически и подумать о серии операций, которые будут работать для любой конфигурации карт. Шаг 1, возможно, пройдитесь по каждой карте и поместите их в четыре отдельные стопки в зависимости от масти. Шаг 2, возьмите одну стопку и найдите туз, затем 2 и так далее. Шаг 3, повторите для каждой стопки и т. Д. Эта серия шагов представляет собой алгоритм, набор инструкций, которые приведут вас к решению в общем виде. Важно отметить, что алгоритмы по самой своей природе не обязательно безошибочны. Мой алгоритм сортировки карточек всегда должен работать, но я не знаю, что это наиболее эффективный алгоритм; может быть, есть лучший способ выполнить задачу, который обычно выполняется быстрее или требует меньшего количества ходов. Хуже того, некоторые задачи, такие как знаменитая задача коммивояжера, заведомо сложны и не поддаются упрощению алгоритмов.

Перетасовка карт может показаться немного далекой от тех последствий в реальном мире, которые я упомянул в начале этой статьи, но принцип используемых алгоритмов остается тем же. Рассмотрим, например, решение банка, который решает, какие заявители получат ипотечные кредиты. Банк хочет ссужать деньги только тем людям, которые их вернут, и ссужать ровно столько, сколько может выплатить любой конкретный человек. Точно так же, как вы не знали точный порядок карт в перетасованной колоде, каждая заявка на ссуду будет разной и неизвестной заранее, поэтому нет одного простого ответа на вопрос, следует ли давать этому заявителю кредит, и если да, то сколько?

В конечном итоге банк примет решение о кредитовании по собственному алгоритму. Возможно, первым шагом будет отсеивание всех претендентов с достаточно низкими кредитными рейтингами, вторым шагом может быть проверка дохода претендента и так далее. В отличие от примера с колодой карт, алгоритм банка не гарантирует получение «правильного» ответа. Банк, скорее всего, в конечном итоге будет кредитовать некоторых кандидатов, которые объявят дефолт, и отказывать другим, которые этого не сделали. На этом этапе должно быть ясно, что участие в алгоритме не гарантирует ни эффективности, ни справедливости, и что алгоритмы могут быть абсолютно необъективными; «Не давать взаймы афроамериканцам» было бы алгоритмом.

Банк, отказывающийся предоставлять ссуды афроамериканцам, будет явно расистским, но я хочу подчеркнуть, что алгоритмы могут быть искажены гораздо более тонкими, но столь же коварными способами. Даже модели, созданные без сознательной человеческой предвзятости, могут давать предвзятые результаты по целому ряду причин, которые важно понять. Обучение работе с «данными» не является гарантией нейтральности, поскольку сами данные могли быть собраны таким образом, что вносит предвзятость в результаты.

Риск 1. Сбор данных является необъективным

Модель хороша ровно настолько, насколько хороши данные, на которых она обучена, а в реальном мире источники данных часто ненадежны. Исторически сбор данных был дорогостоящим и требовал много времени, поэтому получить полные данные было сложно. Тот, кто хотел исследовать конкретную тему, старался получить максимальную отдачу от своих вложений, когда дело доходило до сбора данных, и часто это означало, что нужно идти туда, где данные собирать проще всего. Это причина того, что со студентами колледжей проводится так много психологических исследований, даже если они не обязательно являются демографически репрезентативными для большей части населения. Для исследователя в кампусе колледжа легче найти молодых белых студентов, принадлежащих к верхнему среднему классу, для сдачи теста, чем отправлять людей по стране для изучения ряда предметов.

В настоящее время исследователи могут дешево использовать невероятный объем данных, генерируемых онлайн или подключенными устройствами, но охват все еще не является универсальным или беспристрастным. Например, данные, генерируемые подключенными устройствами, по определению будут отдавать предпочтение людям, которые в настоящее время подключены. В одном интересном исследовании город Бостон выпустил приложение для смартфона, которое водители могли использовать для пассивного определения выбоин во время движения. Приложение использует акселерометр телефона для определения неровностей на дороге, которые отображаются с помощью GPS телефона, помогая городу решить, где выполнять дорожные работы. Это здорово, но результаты не совсем идеальные. Во-первых, на момент выпуска смартфонов уровень проникновения смартфонов все еще мог быть низким в сообществах с низким доходом и даже ниже среди пожилых людей. Поэтому приложение, как правило, не хватает ресурсов на дорожные работы в более бедных районах или местах с более старыми водителями.

Когда модели вводятся в действие и используются для управления политикой, эта проблема может усугубляться сама собой: подумайте о средствах прогнозирования горячих точек, таких как CompStat, которые обучаются на данных о преступности, но также влияют на то, куда направляется полиция. Многие мелкие «неприятные преступления», скорее всего, остались бы незамеченными, если бы о них не было полицейского. Модель направляет полицию в определенные районы и сообщает о случаях праздношатания или пешеходной прогулки в этих районах, но они не сообщают о тех же мелких преступлениях в районах, в которые их не отправляли. В результате в тех местах, куда уже направляется полиция, сообщается о большем количестве преступлений, что делает их более криминальными для модели, которая решает отправить туда больше полиции.

Риск 2. Используемые данные являются несовершенными или предвзятыми.

Скептически настроенный читатель, возможно, справедливо заметил, что мой предыдущий пример банка, просто отказывающего в ссуде черным людям, немного шуточный; В конце концов, для банка было бы незаконным использовать гонку при принятии подобных решений о кредитовании. Это правда, но тогда банк мог бы прийти к тем же расистским результатам без явного использования «расы» в качестве соображения, если бы они использовали какой-то другой фактор, который сильно коррелирует с расой. Рассмотрим сегрегацию по месту жительства - разные районы могут иметь разные демографические данные, поэтому, если вы знаете, где живет человек, вам, возможно, не нужно явно спрашивать о его расе. Во многих городах простого запроса жителя их почтового индекса может быть достаточно, чтобы определить их расу. Важным аспектом является то, что, в частности, поскольку большинство алгоритмических решений автоматически генерируются компьютером, вы можете получить предвзятые результаты таким образом без того, чтобы кто-то принял явно расистское решение: тот, кто не думал о сегрегации по месту жительства, думает, что соседство кажется разумным. вещь, которую нужно включить в заявку на получение кредита, и без долгих размышлений передает эту информацию в компьютер. Позже кажется, что компьютер отказывает в ссуде чернокожим, но результаты не подвергаются сомнению, потому что компьютер не может быть расистским, верно?

Это также проблема, когда конкретный фактор не поддается или не может быть измерен напрямую, и специалисты по данным или исследователи вынуждены пытаться найти для него косвенный показатель. Здоровье человека, например, трудно измерить количественно, поскольку оно связано с множеством различных факторов и проявляется по-разному. Трудно получить полное представление о здоровье или физической форме человека. С другой стороны, индекс массы тела человека измерить относительно просто, поскольку для этого нужно знать только его рост и вес. ИМТ, однако, является широко известным показателем фитнеса. Специалисты по обработке данных часто испытывают искушение использовать плохие и, возможно, предвзятые прокси, потому что это все, что доступно, но эти решения следует тщательно анализировать.

Риск 3. Правила, установленные извне

Модели или практические реализации имеют правила или ограничения, наложенные на них создателями, и поэтому, как бы по определению, несут цели / идеологию производителя модели. Если создатель решает, что почтовый индекс должен быть важным фактором в алгоритме кредитования, то этот прокси-сервер для расы уже прошел через дверь. Никакая модель не создается в вакууме; кто-то всегда решает, какие факторы включить, какие данные ввести в машину и как реализовать алгоритм после того, как он начнет делать прогнозы. Ошибочно думать, что алгоритмы машинного обучения не подвержены влиянию человека, поскольку они созданы на компьютере.

Риск 4. Условие успеха необъективно

У любого алгоритма или модели есть цель, некоторая ценность, которую они пытаются предсказать или принять решение. В любом случае компьютер необходимо обучить тому, что такое успешный прогноз или какое «правильное» решение. Для моделей контролируемого обучения требуются хорошо размеченные наборы данных, включая целевую переменную, которую модель будет искать для прогнозирования входящих данных. То, как целевая переменная была определена ранее, может иметь серьезные последствия для модели, обученной на этих данных. Рассмотрим банк, использующий свою прошлую историю кредитования - испорченную красной полосой - для обучения модели, которая решает, кому разрешить выдачу кредита. Или программа для чтения резюме, которая принимает кандидатов на основании предыдущих решений о приеме на работу, что может не учитывать кандидатов-женщин. Если предыдущие решения о предоставлении кредита или найме были расистскими или сексистскими, обучение модели таким решениям даст вам предвзятую модель.

Есть еще одна проблема с постоянной обратной связью. Компьютерная модель не изменится, если она не будет явно изменена путем включения новых правил или входящих данных. Вмешательство необходимо, если алгоритм возвращает предвзятые или неточные результаты.

Проблемы для всех, кто работает с данными

Я хочу подчеркнуть, что эти источники предвзятости не ограничиваются большими социальными проблемами, такими как расизм или сексизм, это проблемы, которые могут возникнуть при любом применении науки о данных. Каждому специалисту по обработке данных необходимо бороться с алгоритмической предвзятостью. Результаты могут быть благоприятными, например, небольшая потеря точности модели, или серьезными, например, когда алгоритм рецидивизма лишает кого-то залога, но проблема везде, и по мере масштабирования моделей машинного обучения их предубеждения масштабируются вместе с ними. .