На обратной стороне алгоритмов
Мы формируем наши инструменты, а затем наши инструменты формируют нас - Маршалл Маклюэн
#tldr Любой алгоритм может - и часто будет - воспроизводить предвзятость, присущую используемым им данным. Одна из основных проблем заключается в том, что явное удаление функций из набора данных не исключает возможности алгоритма неявно их изучать. Нужно быть очень строгим, чтобы утверждать, что алгоритм что-то не использует в своих вычислениях. Чем больше мы слепо полагаемся на машины, которые учат за нас, тем больше мы научимся предсказывать, но не понимать.
Вы слышали эти истории в новостях. Алгоритмы, которые мы боготворили, больше не являясь непоколебимым оплотом объективности, начали отражать отвратительное видение человечества: подчеркивая некоторые тонкие и не столь тонкие предубеждения и различия, возникающие в результате попыток упростить сложный мир с помощью данных.
Алгоритмическая справедливость предлагает интересное упражнение, которое я рекомендую: попробуйте выполнить поиск по изображению для слова« человек » и критически оцените результаты. Если рассматривать алгоритмы как дети нашего мозга, то когда дело доходит до различения, яблоко недалеко от дерева падает.
- Исследователи из Гарварда обнаружили, что гораздо чаще появлялись объявления об арестах наряду с поисковыми запросами по именам, которые, как считается, принадлежат чернокожему человеку.
- Уровень рецидивов значительно ниже, чем обычно сообщается, поскольку более подходящий статистический метод развенчивает широко распространенное мнение, что большинство освобожденных преступников в конечном итоге возвращаются в тюрьму.
- Согласно исследованию Карнеги-Меллона, Google с большей вероятностью будет рекламировать оплачиваемые должности на руководящем уровне для пользователей, если считает, что это мужчина.
- Алгоритмы согласования программ медицинского резидента и резидентуры в больницах можно настроить, чтобы они были более выгодными как для соискателей, так и для программы.
В конце концов, любой алгоритм может - и часто будет - воспроизвести предвзятость, присущую используемым им данным. Черт, даже Белый дом сделал предупреждение. Но какими конкретными способами алгоритм может быть предвзятым и как мы можем сделать небольшие шаги к более справедливому машинному обучению?
Доказательство в пудинге
Мы часто мешаем разговорам о справедливости алгоритмов, обсуждая язык и семантику того, что мы хотим обсудить: равенство, равенство, справедливость, свобода, справедливость ... у каждого из нас есть какое-то представление о том, что они имеют в виду и что они должны значить для других, что может затруднить достижение консенсуса, который успешно апеллирует к моральным и моральным принципам каждого. политические предпочтения.
Хотя нам может быть трудно придумать четкое определение, мы настолько отчетливо чувствуем последствия неравенства, когда обижены другими или обществом в целом, что напрашивается вопрос: Что такое справедливость ?
Когда дело доходит до алгоритмов, требуется некоторый формализм. Для этого глубокого погружения давайте позаимствуем определение справедливости из Dwork et al., 2011 как принцип, согласно которому любые два человека, которые похожи в отношении конкретной задачи, должны быть классифицированы одинаково и посмотрим, мы можем пролить свет на причины и последствия слепого доверия к нашим инструментам.
«Но мы не используем такую информацию…»
Как общество, мы решили, что определенная информация о людях должна быть защищена; в США Закон о гражданских правах 1964 года запрещает дискриминацию по признаку расы, цвета кожи, религии, пола и национальное происхождение. В эпоху, когда общественное сознание очень чувствительно к неравенству, вам особенно не нравится, если вы используете защищенные категории (например, пол, раса) в качестве определяющих факторов ваш алгоритм. Столкнувшись с растущей напряженностью, подозрительностью и обвинениями, компании часто категорически заявляют, что «не используют такую информацию», чтобы защитить себя и свой имидж.
В большинстве случаев эта претензия бесполезна.
Хотя маловероятно, что эти компании нагло лгут вам, основная проблема остается в том, что явное удаление этих функций из набора данных не исключает возможности алгоритма неявно изучать их (например, избыточное кодирование, пропуски - см. Часть 2). Защищенные категории часто сильно коррелируют с незащищенными:
- Расовые особенности часто непропорционально коррелируют с преступностью. Без адекватной выборки ваши данные, скорее всего, будут косвенно кодировать, что африканские имена с большей вероятностью будут преследоваться по закону, и ваша новая рекомендация по рекламе воспользуется этой функцией.
- Необъяснимые длительные периоды безработицы могут научить алгоритмы найма исключать соискателей, независимо от их причины.
- Алгоритмы могут искусственно продвигать определенных лиц с эквивалентными навыками на основе образовательной родословной (т. Е. Престижа вашей alma question).
Ясно, что нужно быть очень строгим, чтобы утверждать, что алгоритм что-то не использует в своих вычислениях. Как и многие другие статистические проблемы, это сводится к проблеме интерпретируемости результатов. Задача делать выводы (в рамках вашей экспериментальной процедуры) хорошо известна в научном кругу. Плохой экспериментальный план или недостатки в процессе рассуждений быстро сделают недействительными любые результаты в глазах независимого наблюдателя. В любом случае предполагается, что бремя доказывания лежит на практикующем. Но достаточно ли этого?
Как и в случае со многими другими моральными императивами: если всеобъемлющий институт не придерживается высоких стандартов этики и морали, плохие практики неизбежно проникают в структуру алгоритма. Нетрудно представить, что происходит с перегруженными работой сотрудниками в жестком конкурентном корпоративном мире (вспомните токсичную культуру продаж Wells Fargo). Без надлежащей поддержки и коллективного импульса отдельным разработчикам остается жонглировать еще одним конкурирующим интересом; тот, который часто не признается или не ценится теми, кто платит ему зарплату.
Даже если они не созданы с целью дискриминации определенных групп, если они воспроизводят социальные предпочтения даже полностью рациональным образом (например, неправильная выборка, необъективный набор данных - см. Часть 2), они также будут воспроизводить эти формы дискриминации.
Хотя многие, читающие эти слова, будут разочарованы, некоторые оскорблены, а другие будут искать справедливости на улицах (мое уважение к вам), мой опыт подсказывает, что большая часть будет резко возражать: «Алгоритм просто делает то, что сказано! » и хотя некоторые могут разочароваться в этой очевидной небрежности, я считаю, интуиция точна.
Алгоритмы учатся на данных, собранных кем-то, используя разработанную кем-то логику, оптимизируя выбранную кем-то функцию: каждая остановка в этой цепочке поставок вызывает человеческую ошибку.
Более того, быстрый темп развития технологий, обеспечиваемый наборами простых в использовании инструментов (например, scikit-learn, tensorflow), позволяет нам разворачивать и создавать прототипы с беспрецедентной скоростью и с высокой степенью сложности. В настоящее время очень немногие люди, занимающиеся машинным обучением, беспокоятся о вычислении базовой взаимной корреляции между своими переменными, чтобы получить даже низкоуровневое понимание набора данных. Предполагается, что обучение должна выполнять машина, а не мы - но увеличивающаяся скорость компьютеров также позволяет нам очень быстро получать неправильные ответы.
Мы учимся предсказывать, но не понимаем.
Эта проблема усугубляется тем, что специалисты-практики часто демонстрируют ограниченное понимание статистики. Менеджеры не понимают алгоритмов. Эксперты в области законодательства о дискриминации не обучены работе с алгоритмами аудита. Инженеры не имеют образования в области социальных наук. Даже лучшие в мире компьютерные ученые не знают, как интерпретировать механизм многих популярных алгоритмов обучения (прочтите нейронные сети).
Прогресс в области машинного обучения обычно связан с открытием инновационных способов ограничения пространства возможностей, имеющихся у машины для поиска, или с нахождением более быстрых методов поиска. Они часто принимают форму эвристики и эмпирических правил, которые мы изо всех сил пытаемся объяснить на любом уровне строгости, но при этом работают на удивление хорошо. По мере того, как эвристики и предположения накапливаются все выше, правила становятся еще «более запутанными и сложными. интерпретировать".
Обратите внимание, проблема не только в том, что непрофессионал не слушает умных людей, но и в том, что все играют наивно, когда доходит до реалистичного рассмотрения разветвлений машинного обучения.
Меня это беспокоит?
Если вы работаете в сфере маркетинга, занятости, образования, поиска, политики , уголовное правосудие, банковское дело, рынок жилья, здоровье, продажи, реклама, маркетинг - Да.
Для всех остальных - Да.
В какой-то момент мы будем вынуждены спросить себя, какой уровень моральных стандартов мы считаем приемлемым, исходящий от машин, которые помогают нам в наших повседневных задачах. Вопрос об определении того, какие виды предубеждений мы не хотим терпеть и как их применять, непростой и, вероятно, относится к сфере разработки политики. Это потребует от каждого большого внимания и размышлений о различных способах использования технических систем, которые мы используем, эксплуатируем и влияют на гражданскую жизнь. Вызывает тревогу тот факт, что такие разговоры между технологическими компаниями и государственными органами происходят редко.
Продукты, основанные на алгоритмах и данных, всегда будут отражать выбор дизайна людей, которые их создали.
Предполагать иное - безответственно.
В итоге
- Алгоритмы воспроизводят искажения своих данных.
- Алгоритмы - это привратники к возможностям.
- Статистика! = Этика.
Если мы как общество стремимся к машинному обучению и извлекаем из него выгоду, важнейшие аспекты ответственности, прозрачности, проверяемости, неподкупности и предсказуемость должны быть неразрывно связаны с тем, как мы будем действовать в будущем. Критерии, применяемые к людям, выполняющим социальные функции, должны рассматриваться как применимые в алгоритмах, призванных заменить человеческое суждение - Бостром. Все, что не касается этого, может способствовать превращению значительного числа наших собственных пороков в инструменты, которые, как мы так искренне хотим верить, сделают жизнь каждого человека лучше.
У вас есть собственное определение справедливости? Личная история, которой можно поделиться? Обязательно внесите свой вклад в этот разговор в комментариях!
Я хотел бы поблагодарить KellyAnn Kelso за ее помощь в подаче идей и предоставление нескольких итераций редактирования.
Следите за обновлениями части 2…
Читать далее
- Алгоритмическая справедливость
- Отчет ProPublica по алгоритму рецидивизма
- О (не) возможности справедливости
- Равенство возможностей в обучении с учителем
- Противодействие дискриминации с помощью более умного машинного обучения
- Измерение косвенной дискриминации в машинном обучении
- Сертификация и устранение разрозненных воздействий
- Справедливость через осведомленность
- Https://www.theguardian.com/technology/2016/aug/03/algorithm-racist-human-employers-work
- Обратная сторона пути
Этот пост во многом вдохновлен выступлением Абе Гонга, которое я недавно имел удовольствие присутствовать на . Если вы считаете, что это стоит прочитать, я настоятельно рекомендую вам взглянуть на работы следующих замечательных людей (в любом порядке) Суреш Венкат, Джон Мёллер , Карлос Шайдеггер, Сорель Фридлер, Мориц Хардт, Синтия Дворк, Деб Рой