Введение в вред, который наносят системы машинного обучения, и 10 конкретных способов построения более справедливых систем машинного обучения

Системы машинного обучения все чаще используются как инструмент подавления. Слишком часто они используются в процессах с высокими ставками без согласия участников и без разумной возможности для участников оспорить решения системы - например, когда системы оценки рисков используются службами защиты детей для выявления детей из групп риска; когда модель машинного обучения (или «ML») решает, кто видит, какие онлайн-объявления о трудоустройстве, жилье или возможностях получения кредита; или когда системы распознавания лиц используются для наблюдения за районами, где живут черные и коричневые люди.

Системы машинного обучения широко используются, поскольку считаются «нейтральными» и «объективными». В действительности же системы машинного обучения отражают убеждения и предубеждения тех, кто их проектирует и разрабатывает. В результате они отражают и усиливают убеждения и предубеждения своих дизайнеров и, по крайней мере, так же подвержены ошибкам, как и люди-арбитры.

Когда системы машинного обучения развертываются в большом масштабе, они причиняют вред, особенно когда их решения ошибочны. Этот вред непропорционально сильно ощущается членами маргинализованных сообществ [1]. Это особенно очевидно в тот момент, когда люди, протестующие в рамках глобального движения за черные жизни, отслеживаются полицейскими управлениями с использованием систем распознавания лиц [2], и когда недавно была использована система машинного обучения для определения оценок учащихся на уровне A-level в Великобритании после того, как тесты были отменены из-за пандемии, что поставило под угрозу будущее более бедных студентов, многие из которых являются цветными людьми и иммигрантами [3].

В этом посте я опишу несколько примеров вреда, причиняемого системами машинного обучения. Затем я предложу несколько конкретных рекомендаций и ресурсов, которые специалисты-практики машинного обучения могут использовать для разработки более справедливых систем машинного обучения. Я надеюсь, что этот пост побудит других практиков машинного обучения начать использовать и обучать своих коллег методам разработки более справедливых систем машинного обучения в рамках их команды и компании.

Как системы машинного обучения причиняют вред

В июне 2020 года чернокожий Роберт Уильямс был арестован полицейским управлением Детройта, поскольку система распознавания лиц идентифицировала его как человека, который недавно совершил кражу в магазине; однако визуальное сравнение его лица с лицом на фотографии ясно показало, что это были разные люди [4].

Тем не менее, Mr. Уильямс был арестован, допрошен, содержался под стражей более 24 часов, освобожден под залог на собственные деньги и должен был предстать перед судом до того, как его дело было закрыто.

Эта «авария» значительно повредила мистеру Уильямсу и его семье:

  • Он чувствовал себя униженным и смущенным. В интервью New York Times об этом инциденте он сказал: «Моя мать не знает об этом. Я не горжусь этим… Это унизительно ».
  • Это нанесло ему и его семье долговременную травму. Если бы г-н Уильямс оказал сопротивление аресту - что было бы разумно, учитывая его несправедливость, - его могли бы убить. Как бы то ни было, опыт был мучительным. Теперь он и его жена задаются вопросом, нужно ли им лечить двух своих маленьких дочерей.
  • Это поставило под угрозу его работу и, следовательно, его способность обеспечивать себя и свою семью. Он мог потерять работу, даже если его дело было прекращено; компании безнаказанно увольняли сотрудников за гораздо меньшие деньги. К счастью, его начальник понимал ситуацию, но его начальник все же посоветовал ему не рассказывать другим на работе.
  • Это чуть не привело к тому, что у него была постоянная судимость. Когда г-н Уильямс обратился в суд, его дело было первоначально отклонено «без предубеждений», что означало, что ему все же могут быть предъявлены обвинения позже. Только после того, как ложное срабатывание получило широкое внимание средств массовой информации, прокурор извинился и предложил стереть его запись и отпечатки пальцев.

Вред, причиненный здесь системой распознавания лиц, используемой местным отделением полиции, недопустим.

Система доставки рекламы Facebook - еще один пример вредоносной системы машинного обучения. В 2019 году компания Dr. Петр Сапежинский , научный сотрудник Северо-Восточного университета, и его сотрудники провели эксперимент, используя собственные маркетинговые инструменты Facebook, чтобы выяснить, как объявления о трудоустройстве распространяются на Facebook [5, 6]. В ходе этого эксперимента они обнаружили, что система доставки рекламы Facebook, несмотря на нейтральные настройки таргетинга, показывает существенно разные объявления о вакансиях для каждого пользователя в зависимости от их пола и расы. Другими словами, даже если рекламодатель указывает, что он хочет, чтобы его реклама была видна одинаково для всех полов и всех рас, система доставки рекламы Facebook будет, в зависимости от содержания объявления, показывать рекламу представителям расы и / или пола. - искривленная публика.

В частности, д-р Сапежинский и его сотрудники обнаружили, что женщины с большей вероятностью будут получать объявления о работе в супермаркете, уборщике и дошкольных учреждениях, тогда как мужчины с большей вероятностью получат рекламу о такси, искусственном интеллекте и работе с пиломатериалами. (Исследователи признают, что исследование было ограничено бинарными полами из-за ограничений в рекламных инструментах Facebook.) Они аналогичным образом обнаружили, что чернокожие люди с большей вероятностью будут получать объявления о работе в такси, дворнике и ресторане, тогда как белые люди с большей вероятностью получат объявления о вакансиях секретаря, искусственного интеллекта и пиломатериалов.

Система доставки рекламы Facebook является примером системы машинного обучения, ориентированной на потребителя, которая причиняет вред тем, кто в ней участвует:

  • Он закрепляет и усиливает стереотипы трудоустройства, основанные на гендерных и расовых признаках, среди людей, использующих Facebook. Например, женщинам показывают объявления о вакансиях, которые исторически ассоциировались с «женственностью» (например, работа по уходу или уборке); просмотр такой рекламы укрепляет их собственное, а также мнение представителей других полов о работе, которую женщины могут или «должны» выполнять. То же самое и с рекламой, показываемой чернокожим.
  • Он ограничивает доступ чернокожих пользователей и женщин-пользователей к экономическим возможностям. Рекламы, которые Facebook показывает темнокожим людям и женщинам, предназначены для заметно более низкооплачиваемой работы. Если чернокожие люди и женщины даже не знают о доступных более высокооплачиваемых рабочих местах, они не могут подать заявление и быть нанятыми на них.

Вред, причиняемый системой доставки рекламы Facebook, также недопустим.

Более широкий контекст

В случае обеих вышеупомянутых алгоритмических систем вред, который они причиняют, идет глубже: они усиливают существующие системы угнетения, часто во имя «нейтралитета» и «объективности». Другими словами, приведенные выше примеры не являются изолированными инцидентами; они способствуют давним моделям причинения вреда.

Например, черные люди, особенно черные мужчины и черные мужчины мужского пола, систематически подвергались чрезмерному контролю, преследованию и убийствам в течение последних четырехсот лет. Это, несомненно, по-прежнему верно. о чем свидетельствуют недавние убийства полицией Джорджа Флойда, Бреонны Тейлор, Тони МакДейда и Ахмауда Арбери, а также недавняя стрельба полицией Джейкоба Блейка.

Коммерческие системы распознавания лиц позволяют полицейским управлениям более легко и незаметно нацеливаться на чернокожих мужчин и мужчин, в том числе нацеливать их в больших масштабах. Система распознавания лиц может идентифицировать больше «преступников» за час, чем сотня полицейских за месяц, и с меньшими затратами. Таким образом, коммерческие системы распознавания лиц позволяют полицейским департаментам «массово разрабатывать» свою практику чрезмерного усердия, преследования и убийства чернокожих.

Более того, в 2018 году исследователи информатики Joy Buolamwini и Dr. Тимнит Гебру показал, что коммерческие системы распознавания лиц значительно менее точны для темнокожих людей, чем для светлокожих [7]. Действительно, при использовании для наблюдения системы распознавания лиц идентифицируют не того человека в 98% случаев [8]. В результате, когда коммерческие системы распознавания лиц разрешены к использованию в полицейских участках, они причиняют вред не только за счет масштабирования дискриминационной практики полиции, но и из-за того, что большую часть времени идентифицируют не того человека.

Система доставки рекламы Facebook также усиливает хорошо задокументированную систему угнетения: неравенство благосостояния по признаку расы. В Соединенных Штатах скорректированный средний семейный доход белых и азиатских домохозяйств в 1,6 раза больше , чем у чернокожих и латиноамериканских домохозяйств (~ 71 тысяча долларов против 43 тысяч долларов), а средний чистый капитал белых домохозяйств в 13 раз больше, чем у черных домохозяйств (~ 144 тысячи долларов по сравнению с 11 тысячами долларов). ) [9]. Таким образом, постоянно показывая рекламу только низкооплачиваемых рабочих мест миллионам чернокожих, использующих Facebook, Facebook укрепляет и увеличивает разрыв в уровне благосостояния между чернокожими и более обеспеченными демографическими группами (особенно белыми) в Соединенных Штатах. . Система доставки рекламы Facebook, вероятно, аналогичным образом усугубляет неравенство в благосостоянии в других странах по всему миру.

Как сбор этикеток для систем машинного обучения причиняет вред

Вред причиняется не только развернутыми системами машинного обучения; вред также причиняется в процессе разработки систем машинного обучения. То есть вред часто причиняется, когда метки собираются с целью обучения моделей машинного обучения.

Например, в феврале 2019 года Кейси Ньютон из The Verge выпустила статью об условиях работы внутри Cognizant, поставщика, которого Facebook нанимает для маркировки и модерации контента Facebook [10]. Его выводы были шокирующими: Facebook, по сути, управлял цифровым потогонным магазином.

Что они обнаружили:

  • Сотрудникам недоплачивали: в Фениксе, штат Аризона, модератор зарабатывал 28 800 долларов в год (по сравнению с 240 000 долларов в год для постоянного сотрудника Facebook).
  • Условия работы в Cognizant были ужасающими: сотрудников часто увольняли после того, как они совершали всего несколько ошибок в неделю. Поскольку «ошибка» произошла, когда два сотрудника не пришли к соглашению о том, как следует модерировать часть контента, между сотрудниками росло недовольство. Уволенные сотрудники часто угрожали вернуться на работу и нанести вред своим старым коллегам. Кроме того, сотрудники находились под микроуправлением: у них было два 15-минутных перерыва и один 30-минутный обед в день. Большую часть времени во время перерыва они проводили в очереди в туалет, поскольку часто ›500 человек приходилось делить шесть туалетных кабинок.
  • Пострадало психическое здоровье сотрудников. Модераторы большую часть времени просматривали контент, содержащий сцены насилия или ненависти, в том числе жестокое обращение с животными, жестокое обращение с детьми и убийства. В результате шести часов в день просмотра материалов, содержащих сцены насилия или ненависти, у сотрудников возникла серьезная тревога, часто еще во время обучения. После ухода из компании у сотрудников появились симптомы посттравматического стрессового расстройства. Находясь на работе, сотрудники имели доступ только к девяти минутам психиатрической помощи в день; после того, как они покинули компанию, у них не было психологической поддержки со стороны Facebook или Cognizant.

Аналогичный вред наносят краудсорсинговые платформы, такие как Amazon Mechanical Turk, с помощью которых отдельные лица, академические лаборатории или компании предоставляют краудворкерам задачи для выполнения:

  • Сотрудникам недоплачивают. Mechanical Turk и другие подобные платформы основаны на большом количестве неоплачиваемого труда: работникам не платят за поиск задач, за задачи, которые они запускают, но не могут выполнить из-за расплывчатых инструкций, за задачи, которые авторы задач часто отклоняют. по произвольным причинам или по перерывам. В результате средняя заработная плата краудоркера на Mechanical Turk составляет примерно 2 доллара в час [11]. Работники, которые не живут в Соединенных Штатах, являются женщинами и / или инвалидами, вероятно, будут зарабатывать гораздо меньше в час [12].
  • Условия труда ужасающие. Доход рабочих колеблется со временем, поэтому они не могут планировать себя или свою семью на долгосрочную перспективу; работники не получают медицинской помощи или других льгот; а у рабочих нет правовой защиты.
  • Психическое здоровье сотрудников нарушено. Рабочие часто не могут найти достаточно хорошо оплачиваемых задач, что вызывает стресс и беспокойство. Например, работники сообщают, что просыпаются в 2 или 3 часа ночи, чтобы получить более оплачиваемые задания [11].

Вопреки распространенному мнению, многие люди, выполняющие задачи на краудсорсинговых платформах, делают это, чтобы заработать большую часть своего дохода [11]. Таким образом, люди, которые работают в частных компаниях по маркировке, таких как Cognizant, и люди, которые работают на краудсорсинговых платформах, таких как Mechanical Turk, имеют схожую цель: выполнять задачи по маркировке в безопасной и здоровой рабочей среде в обмен на справедливую заработную плату.

Почему происходит этот вред

В этот момент вы можете спросить себя: «Почему причиняется такой вред?» Ответ многогранен: существует множество причин, по которым развернутые системы машинного обучения причиняют вред своим участникам.

Когда используются системы машинного обучения

Основная причина того, что системы машинного обучения причиняют вред, - это контекст, в котором они используются. То есть, поскольку системы машинного обучения считаются «нейтральными» и «объективными», они часто используются в процессах принятия решений с высокими ставками как способ сэкономить деньги. Процесс принятия решений с высокими ставками по своей природе с большей вероятностью может причинить вред, поскольку ошибка, допущенная в процессе принятия решения, может оказать значительное негативное влияние на чью-то жизнь.

В лучшем случае внедрение системы машинного обучения в процесс принятия решений с высокими ставками не повлияет на вероятность того, что система причинит вред; в худшем случае это увеличивает вероятность причинения вреда из-за тенденции моделей машинного обучения к усилению предвзятости в отношении маргинализированных групп, самоуспокоенности людей в отношении аудита решений модели (поскольку они «нейтральны» и «объективны» ), и что решения моделей машинного обучения часто невозможно интерпретировать.

Как устроены системы машинного обучения

Системы машинного обучения также причиняют вред из-за того, как они устроены. Например, при проектировании системы инженеры часто не учитывают возможность того, что система может принять неверное решение; таким образом, системы машинного обучения часто не включают механизм, позволяющий участникам оспорить решение или обратиться за помощью.

Чьи перспективы сосредоточены при разработке систем машинного обучения

Еще одна причина того, что системы машинного обучения наносят вред, заключается в том, что при разработке системы взгляды людей, которым они с наибольшей вероятностью причинят вред, не учитываются.

Системы, разработанные людьми, будут отражать убеждения и предубеждения - как сознательные, так и бессознательные - этих людей. Системы машинного обучения в основном создаются очень однородной группой людей: белые, азиатско-американские или азиатские гетеросексуальные цисгендерные мужчины в возрасте от 20 до 50 лет, трудоспособные и нейротипичные, которые являются американцами и / или проживают в Соединенных Штатах и ​​имеют традиционное образование, включая степень по информатике в одном из ~ 50 элитных университетов. В результате системы машинного обучения ориентированы на опыт этой узкой группы людей.

Кроме того, системы машинного обучения часто используются в контекстах, которые непропорционально вовлекают исторически маргинализованные группы (например, прогнозирование рецидивизма или наблюдение за районами с высоким уровнем преступности) или для определения доступа к ресурсам, в которых давно несправедливо отказывали маргинальным группам (например, жилье, возможности трудоустройства, кредиты и займы, и здравоохранение). Например, поскольку чернокожим людям исторически отказывали в справедливом доступе к здравоохранению, системы машинного обучения, используемые в таких контекстах, демонстрируют аналогичные модели дискриминации, поскольку они зависят от исторических предположений и данных [13]. В результате, если не будут предприняты целенаправленные действия для сосредоточения опыта групп, которые являются арбитражными системами систем машинного обучения, системы машинного обучения приводят к тому, что история повторяется.

На пересечении двух вышеупомянутых моментов возникает пугающее осознание: люди, которые проектируют системы машинного обучения, редко бывают теми, кого затрагивают системы машинного обучения. Это звучит пугающе похоже на то, что большинство полицейских не живут в городах, где они работают [14].

Отсутствие прозрачности при использовании систем машинного обучения.

Вред также причиняется системами машинного обучения, потому что часто неясно, когда алгоритм был использован для принятия решения. Это связано с тем, что компании не обязаны раскрывать, когда и как машина используются системы обучения (а тем более получение согласия участников), даже если результаты этих решений влияют на человеческие жизни. Если кто-то не знает, что на него воздействовала система машинного обучения, он не может приписать ей вред, который он, возможно, понес.

Кроме того, даже если человек знает или подозревает, что он пострадал от системы машинного обучения, доказать, что он подвергся дискриминации, сложно или невозможно, поскольку полный набор решений, принимаемых Система ОД является частной и поэтому не может быть проверена на предмет дискриминации. В результате вред, который наносят системы машинного обучения, часто невозможно «доказать».

Отсутствие правовой защиты участников системы ОД

Наконец, системы машинного обучения причиняют вред, потому что в настоящее время очень мало нормативного или правового надзора за тем, когда и как используются системы машинного обучения, поэтому компании, правительства и другие организации могут использовать их для дискриминации участников с безнаказанность.

Что касается распознавания лиц, то это медленно меняется: в 2019 году Сан-Франциско стал первым крупным городом, который запретил использование распознавания лиц местными правительственными учреждениями [15]. С тех пор то же самое сделали и несколько других городов, включая Окленд, Калифорния; Сомервилль, Массачусетс; и Бостон, Массачусетс [16, 17].

Тем не менее, до сих пор известны сотни известных случаев использования распознавания лиц местными правительственными учреждениями, в том числе в пунктах въезда в США, таких как границы и аэропорты, а также местной полицией в неуказанных целях [18]. Использование систем распознавания лиц в этих контекстах - особенно с учетом того, что большинство их решений, вероятно, ошибочны [8], - оказывает реальное влияние, включая преследование, необоснованное тюремное заключение и депортацию.

Что касается других типов систем машинного обучения, то здесь сделано несколько юридических достижений.

Призыв к действию

Учитывая контексты, в которых используются системы ОД, отсутствие в настоящее время правового и нормативного надзора за такими контекстами, а также отсутствие социальной власти, которой, как правило, обладают люди, пострадавшие от систем ОД (из-за их, например, расы, пола, инвалидности, гражданство и / или богатство), разработчики систем машинного обучения обладают значительно большей властью, чем участники.

Между людьми, которые разрабатывают задачи по маркировке, и людьми, выполняющими задачи по маркировке, существует схожая динамика силы: лица, запрашивающие метки, обладают большей властью, чем агенты по маркировке.

Здесь разработчик системы машинного обучения определяется как любое лицо, участвующее в проектировании, разработке и развертывании систем машинного обучения, включая инженеров по машинному обучению и специалистов по обработке данных и также инженеры-программисты других технических дисциплин, менеджеры по продуктам, инженеры, исследователи UX, писатели UX, юристы, менеджеры среднего звена и руководители высшего звена. Все эти роли включены для того, чтобы подчеркнуть, что даже если вы не работаете непосредственно в системе машинного обучения, если вы работаете в компании или организации, которая использует системы машинного обучения, вы можете повлиять на изменения когда и как машинное обучение используется в вашей компании.

Позвольте мне прояснить: индивидуальных действий недостаточно - мы отчаянно нуждаемся в хорошо разработанном законодательстве, определяющем, когда и как можно использовать системы ОД. Важно отметить, что должны быть определенные контексты, в которых системы ОД не могут использоваться, какими бы «точными» они ни были, потому что вероятность неправильного использования и ошибок слишком велика - например, полицейские управления, использующие системы распознавания лиц [ 19].

К сожалению, у нас еще нет необходимого законодательства и нормативных актов. Между тем, как разработчики систем машинного обучения, мы должны намеренно рассматривать системы машинного обучения, которыми мы, наши команды или наши компании владеем и используем.

Как создавать более справедливые системы машинного обучения

Если вы разработчик системы машинного обучения - особенно если вы практикуете машинное обучение, например, инженер машинного обучения или специалист по данным - вот 10 способов помочь создать более справедливые системы машинного обучения:

#1

При разработке новой системы машинного обучения или оценке существующей системы машинного обучения задайте себе и своей команде следующие вопросы о контексте, в котором система развертывается / развертывается [20]:

  • Что может пойти не так при развертывании этой системы машинного обучения?
  • Когда что-то идет не так, кто пострадал?
  • Насколько вероятно, что что-то пойдет не так?
  • Вред непропорционально ложится на маргинализированные группы?

Используйте свои ответы на эти вопросы, чтобы оценить, как действовать дальше. Например, если возможно, проактивно разрабатывайте решения, которые предотвращают причинение вреда (например, добавляйте меры предосторожности для предотвращения вреда, такие как вмешательство человека и механизмы, позволяющие участникам оспаривать системные решения, и информировать участников о том, что используется алгоритм машинного обучения). В качестве альтернативы, если вероятность и масштаб ущерба слишком высоки, не применяйте его. Вместо этого рассмотрите возможность поиска решения, которое не зависит от машинного обучения или использует машинное обучение менее рискованным способом. Развертывание предвзятой системы машинного обучения может нанести реальный вред участникам системы, а также репутацию вашей компании [21, 22, 23].

#2

Используйте передовой опыт для разработки более справедливых систем машинного обучения. Исследователи справедливости машинного обучения уже несколько лет разрабатывают и тестируют передовые методы. Например, одна из лучших практик - при выпуске набора данных для общедоступного или внутреннего использования одновременно выпускать таблицу, короткий документ, в котором содержится информация, необходимая потребителям набора данных для принятия обоснованных решений. используя его (например, механизмы или процедуры, используемые для сбора данных, независимо от того, проводился ли процесс этической проверки, относится ли набор данных к людям) [24].

Аналогичным образом, при выпуске обученной модели для общедоступного или внутреннего использования одновременно выпускайте карточку модели, короткий документ, в котором содержится информация о модели (например, результаты оценки (в идеале с разбивкой по разным демографическим группам и сообществам). , предполагаемое использование (я), способы, которых следует избегать, понимание процессов обучения модели) [25].

Наконец, рассмотрите возможность внедрения общекорпоративного процесса внутреннего алгоритмического аудита, подобного тому, который Деб Раджи, Эндрю Смарт и их сотрудники предложили в своей статье 2020 года Устранение пробелов в подотчетности ИИ: определение Сквозная структура для внутреннего алгоритмического аудита .

#3

Сотрудничайте со своей компанией или организацией для развития партнерских отношений с правозащитными организациями, которые представляют группы людей, которые системы машинного обучения склонны маргинализировать, чтобы ответственно привлекать маргинализированные сообщества в качестве заинтересованных сторон. Примеры таких организаций: Color Of Change и NAACP. Затем при разработке новых систем машинного обучения или оценке существующих систем машинного обучения ищите и учитывайте их отзывы.

#4

Нанимайте инженеров по машинному обучению и специалистов по обработке данных из недостаточно представленных слоев населения, особенно чернокожих, коренных жителей, латиноамериканцев, инвалидов, трансгендеров и небинарных людей, лиц, ранее заключенных в тюрьмы, и людей из стран, которые недостаточно представлены в сфере технологий ( например, страны Африки, страны Юго-Восточной Азии и страны Южной Америки). Обратите внимание, что это потребует переосмысления того, как выявляются и обучаются таланты [26] - подумайте о найме из колледжей и университетов (HBCU) в США, которые исторически принадлежали к черным, и на курсах для начинающих по кодированию и науке о данных или о запуске внутренней программы, такой как Slack’s Next Chapter.

В связи с этим, работайте со своей компанией для поддержки организаций, которые поощряют таланты из недостаточно представленных источников, например AI4ALL, Black Girls Code, Code2040, NCWIT, TECHNOLOchicas, ТрансТех и Выезд в бакалавриат . Подобные организации имеют решающее значение для увеличения числа людей с недопредставленным опытом работы в сфере высоких технологий, в том числе в сфере машинного обучения и искусственного интеллекта, и все они имеют подтвержденный послужной список успеха. Кроме того, подумайте о поддержке подобных организаций своими деньгами и временем.

#5

Сотрудничайте со своей компанией или организацией над подписанием Обязательства по безопасному использованию лиц, дающего возможность организациям публично взять на себя обязательства по предотвращению злоупотребления технологией анализа лица. Это обязательство было совместно разработано Лигой алгоритмической справедливости и Центром технологий и конфиденциальности в Джорджтаунском праве и уже подписано многими ведущими экспертами по этике и конфиденциальности.

#6

Узнайте больше о том, как системы машинного обучения наносят вред. Например, вот семь рекомендуемых ресурсов для продолжения обучения:

  1. [Книга] Оружие разрушения математики: как большие данные увеличивают неравенство и угрожают демократии Кэти О’Нил (2016)
  2. [Книга] Алгоритмы угнетения: как поисковые системы усиливают расизм, Сафия Ноубл (2018)
  3. [Книга] Искусственный неразум: как компьютеры неправильно понимают мир, Мередит Бруссард (2018)
  4. [Книга] Автоматизация неравенства: профилирующие инструменты с использованием высоких технологий, полиция и наказание бедных Вирджинии Юбэнкс (2019)
  5. [Книга] Гонка после технологии: инструменты аболиционистов для нового кодекса Джима, Руха Бенджамин (2019)
  6. [Книга] Работа с призраками: как помешать Кремниевой долине создать новый глобальный низший класс Мэри Л. Грей и Сиддхарт Сури (2019)
  7. [Фильм] Coded Bias (2020)

Кроме того, вы можете узнать больше о вреде, причиняемом системами машинного обучения, прочитав работы журналистов и исследователей, которые обнаруживают предвзятость в системах машинного обучения. Помимо исследователей и журналистов, которых я уже назвал в этом эссе (например, Доктор Петр Сапежинский, Кейси Ньютон, Джой Буоламвини, Доктор Тимнит Гебру, Деб Раджи, Эндрю Смарт), некоторые примеры включают Джулия Ангвин ( и все, что написано The Markup), Khari Johnson, Moira Weigel, Lauren Kirchner и всем, что написано Upturn. Работа журналистов и исследователей служит важным примером того, как не для разработки систем машинного обучения, что ценно для практиков машинного обучения, которые стремятся разработать справедливые и равноправные системы машинного обучения.

#7

Узнайте о способах улучшения существующих систем машинного обучения, чтобы уменьшить вред. Например, IBM работала над улучшением производительности своей коммерческой системы распознавания лиц в отношении расовых и гендерных предубеждений (прямая ссылка), Google работала над снижением гендерных предубеждений в Google Translate (прямая ссылка) , а Jigsaw (в рамках Google) работал над изменением Perspective AI (общедоступный API для алгоритма обнаружения языка ненависти), чтобы реже классифицировать фразы, содержащие часто целевые группы (например, мусульман, женщин, гомосексуалистов), как разжигающие ненависть (прямая ссылка ).

#8

Проведите аудит системы машинного обучения на предмет различного воздействия. Несопоставимое воздействие происходит, когда, даже если политика или система нейтральны, одна группа людей страдает больше, чем другая. Система доставки рекламы Facebook является примером системы, оказывающей разное влияние.

Например, используйте Project Lighthouse, методологию, которую Airbnb выпустил ранее в этом году, которая использует анонимные демографические данные для измерения расхождений в пользовательском опыте, которые могут быть вызваны дискриминацией или предвзятостью, или ArthurAI, систему мониторинга машинного обучения, которая позволяет вам также отслеживать предвзятость модели. (Полное раскрытие: я работаю в Airbnb.)

Вы также можете нанять консалтинговую фирму по алгоритмическому обучению для проведения аудита системы машинного обучения, принадлежащей вашей команде или компании, например, O’Neil Risk Consulting & Algorithmic Auditing или Лига алгоритмической справедливости.

#9

Нанимая сторонних поставщиков или используя краудсорсинговые платформы для задач маркировки машинного обучения, критически относитесь к тому, кого вы решите поддерживать. Узнайте об условиях работы людей, которые будут маркировать для вас. Кроме того, если возможно, посетите продавца на месте, чтобы самостоятельно оценить условия работы. Какая у них почасовая оплата? Есть ли у них медицинские и другие льготы? Они штатные сотрудники или подрядчики? Показывают ли они свой персонал графическому контенту с насилием или ненавистью? Есть ли возможности для карьерного роста и продвижения внутри компании?

#10

Сделайте презентацию для своей команды или компании о вреде, который вызывают системы машинного обучения, и о том, как его уменьшить. Чем больше людей осознают вред, причиняемый системами машинного обучения, и существующий в настоящее время дисбаланс сил между разработчиками систем машинного обучения и участниками систем машинного обучения, тем больше вероятность того, что мы сможем повлиять на изменения в наших командах и в наших компаниях.

#11

Наконец, бонус № 11 в этом списке - это ГОЛОСОВАНИЕ, если вы имеете право на это в США. На этих предстоящих выборах так много поставлено на карту, включая права людей BIPOC, иммигрантов, женщин, ЛГБТК и инвалидов, а также - в буквальном смысле - будущее нашей демократии. Если вы не зарегистрированы для голосования, сделайте это сейчас: Зарегистрируйтесь для голосования. Если вы зарегистрированы для голосования, но не запрашивали свой заочный бюллетень или бюллетень для голосования по почте, сделайте это теперь: Запросить открепительный талон. Хотя Джо Байден далек от идеального кандидата, нам нужно избрать его и Камалу Харрис; эта страна, люди в ней, и так много людей во всем мире не могут пережить еще четыре года президентства Трампа.

Заключение

Системы машинного обучения - невероятно мощные инструменты; к сожалению, они могут быть либо агентами расширения возможностей, либо агентами вреда. Как специалисты по машинному обучению, мы обязаны осознавать вред, который наносят создаваемые нами системы, и затем действовать соответствующим образом. Вместе мы можем работать над созданием мира, в котором системы машинного обучения используются ответственно, не усиливают существующие системные предубеждения, а также не поощряют и расширяют возможности людей из маргинализированных сообществ.

Эта статья отчасти вдохновлена ​​Подходами к машинному обучению с участием, семинаром на Международной конференции по машинному обучению (ICML) 2020 года, которую я имел возможность посетить в июле. Я хотел бы глубоко поблагодарить организаторов этого мероприятия за то, что они привлекли внимание к дисбалансу сил между разработчиками систем машинного обучения и участниками системы машинного обучения и за создание пространства для его обсуждения: Анджела Чжоу, Дэвид Мадрас, Иниолува Дебора Раджи , Богдан Кулыныч, Смита Милли и Ричард Земель.

использованная литература

[1] Оружие разрушения математики: как большие данные увеличивают неравенство и угрожают демократии Кэти О’Нил. Опубликовано в 2016 г.

[2] Полиция Нью-Йорка использовала распознавание лиц, чтобы выследить активиста Black Lives Matter. Грань. 18 августа 2020.

[3] Алгоритм определял оценки британских студентов. Начался хаос . Проводной. 15 августа 2020 г.

[4] Обвинение неправомерно по алгоритму. Нью-Йорк Таймс. 24 июня 2020 г.

[5] Дискриминация через оптимизацию: как размещение рекламы в Facebook может привести к необъективным результатам. Мухаммед Али, Петр Сапезинский, Миранда Боген, Александра Королова, Алан Мислав и Аарон Рике. CSCW 2019.

[6] Перевернув столы в Facebook: как мы проводим аудит Facebook, используя их собственные маркетинговые инструменты. Петр Сапезинский, Мухаммед Али, Александра Королова, Алан Мислав, Аарон Рике, Миранда Боген и Авиджит Гош. Выступление на семинаре PAML на ICML 2020.

[7] Гендерные оттенки: межсекторные различия в точности в коммерческой гендерной классификации. Джой Буоламвини и Тимнит Гебру. ACM FAT * 2018.

[8] Программное обеспечение для распознавания лиц работает с ошибками в 98% случаев, - говорится в отчете. CNET. 13 мая 2018 г.

[9] С точки зрения расы и неравенства, черные и белые - разные миры: демографические тенденции и экономическое благополучие. Исследовательский центр Пью. 27 июня 2016 г.

[10] Этаж травмы: тайная жизнь модераторов Facebook в Америке. Грань. 25 февраля 2019 г.

[11] Интернет открывает новый вид плохо оплачиваемого ада. Атлантика. 23 января 2018 г.

[12] Демографические данные и доходы работников Amazon Mechanical Turk: исследовательский анализ. Котаро Хара, Эбигейл Адамс, Кристи Милланд, Сайф Сэвидж, Бенджамин В. Ханрахан, Джеффри П. Бигхэм и Крис Каллисон-Берч. CHI Late Breaking Work 2019.

[13] Миллионы чернокожих людей страдают от расовых предубеждений в алгоритмах здравоохранения. Природа. 24 октября 2019 г.

[14] Большинство полицейских не живут в городах, которым они служат. FiveThirtyEight. 20 августа 2014 г.

[15] Запрет технологии распознавания лиц в Сан-Франциско, объяснил. Vox. 14 мая 2019 г.

[16] За пределами Сан-Франциско больше городов отказываются от распознавания лиц. CNN. 17 июля 2019 г.

[17] Бостон - второй по величине город США, в котором запрещено распознавание лиц. Погружение в умные города. 6 июля 2020 г.

[18] Запрет на распознавание лиц: карта. Доступ 30 августа 2020 г.

[19] Защита жизни чернокожих означает запрет на распознавание лиц. Проводной. 10 июля 2020 г.

[20] Благодарим доктора Кэти О’Нил из компании O’Neil Risk Consulting & Algorithmic Auditing.

[21] Сообщается, что Amazon отказывается от внутреннего инструмента найма ИИ, который был настроен против женщин. Грань. 10 октября 2018 г.

[22] Google« исправил свой расистский алгоритм, удалив горилл из своей технологии маркировки изображений». Грань. 12 января 2018 г.

[23] Алгоритм показа рекламы Facebook различается по полу и расе. Обзор технологий MIT. 5 апреля 2019 г.

[24] Таблицы данных для наборов данных. Тимнит Гебру, Джейми Моргенштерн, Бриана Веччионе, Дженнифер Вортман Воган, Ханна Уоллах, Хэл Доме III и Кейт Кроуфорд. Препринт ArXiv 2018.

[25] Образцы карточек для типовой отчетности. Маргарет Митчелл, Симона Ву, Эндрю Залдивар, Паркер Барнс, Люси Вассерман, Бен Хатчинсон, Елена Спитцер, Иниолува Дебора Раджи и Тимнит Гебру. ACM FAT * 2019.

[26] Борьба с чернотой в сообществе ИИ.