DS в реальном мире

Исследование алгоритмической предвзятости

Наш мир меняется.

Сейчас мы связаны больше, чем когда-либо в истории; Вооружившись огромным количеством информации, находящейся у нас под рукой, географическая дистанция, которая когда-то разделяла нас, была стерта эпохой цифровых технологий.

Эта трансформация изменила то, как мы взаимодействуем, как мы ведем бизнес и как мы остаемся в курсе. Он дал голос тем, у кого его не было, и обеспечил большую прозрачность и подотчетность в нашем социально-политическом ландшафте. И все же благодаря этой возросшей взаимосвязанности мы увидели, насколько разными остаются наши взгляды на мир.

Хотя в последние несколько лет мы стали свидетелями более открытого разговора об этих различиях - и лежащих в их основе предубеждениях, - мы также увидели, какое влияние они могут иметь, если эти предубеждения игнорируются; особенно в мире технологий, где автоматизация - это и благословение, и проклятие.

Вдохновение

Я следил за ранней политической карьерой Александрии Окасио-Кортез и часто обнаруживал, что меня привлекают ее подход и послание. По мере того как ее стремительное восхождение продолжается, фирменный четкий и прямой подход AOC к проблемам нашего времени стал долгожданным изменением темпа в статичном пространстве.

Однако были моменты, когда ее позиция по менее обсуждаемым вопросам заставляла меня задуматься. Во время выступления на мероприятии MLK Now этого года представители AOC обсудили роль технологий в нашей повседневной жизни и сделали заголовки со следующими комментариями:

«Алгоритмы по-прежнему создаются людьми, и эти алгоритмы по-прежнему привязаны к основным человеческим предположениям. Это просто автоматические предположения, и если вы не исправляете предвзятость, то вы просто автоматизируете предвзятость ".

Неудивительно, что это вызвало критику со стороны горстки консервативных экспертов. Однако меня поразило то, насколько я противоречил своим мыслям по этому поводу. Хотя цель комментариев была ясна, это общее заявление о том, что (все) алгоритмы были предвзятыми, потому что они были созданы людьми, меня не устраивало.

Могут ли алгоритмы быть необъективными? Конечно.

Содержат ли все алгоритмы предвзятость? Конечно, нет.

Верно?

Очарованный этой мысленной игрой в пинг-понг, я решил копнуть дальше, чтобы переоценить собственное восприятие и узнать больше у некоторых ведущих экспертов в этой области. Ниже приводится краткое изложение моего собственного исследования: что такое алгоритмы, как они построены, какие предопределенные предубеждения действительно могут быть автоматизированы, и шаги, которые мы, как общество, можем предпринять для решения этих проблем.

Алгоритмы 101

Прежде чем мы сможем полностью понять алгоритмическую предвзятость, мы должны сначала разложить движущиеся части самих этих алгоритмов. Как правило, слово «алгоритм» используется для описания некоторой формы машинного обучения / искусственного интеллекта. Хотя существует множество методов для разработки такой модели, на самом высоком уровне есть четыре основных шага:

  1. Соберите набор обучающих данных и загрузите его в машину.
  2. Пусть машина… ну учись
  3. Настраивайте любые параметры, пока не получите приемлемый уровень точности.
  4. Используйте полученную формулу, чтобы что-то предсказать, учитывая набор входных данных.

Алгоритмы используются почти во всех цифровых технологиях, с которыми мы взаимодействуем; они рекомендуют продукты, рассказывают нам, кто из наших друзей на фотографии, которую мы сделали, и предлагают, что мы могли бы сделать дальше.

Хотя они могут показаться безобидными, другие варианты использования могут быть более сомнительными: расчет кредитного риска заявки на получение кредита, использование распознавания лиц в качестве средства идентификации для правоохранительных органов или автоматизация обзора и отбора резюме при поиске «наиболее квалифицированных» кандидатов.

Понятно, что последний набор вариантов использования с большей вероятностью станет заголовком в статье на обложке New York Times. Тем не менее, во всех этих примерах мы уже видели, какое негативное влияние может иметь алгоритмическая систематическая ошибка, если ее не остановить.

Конечно же, создатели этих продуктов не собирались намеренно внедрять эти формы автоматизированной предвзятости, верно? Так что же дает?

Оказывается, несмотря на то, что мы очень хорошо научились обучать наши машины, мы, как люди, все еще в корне несовершенны, когда дело доходит до выбора базовых данных для обучения. Будь то недопредставленность одной демографической группы или чрезмерная индексация другой, мы по-прежнему руководствуемся нашими собственными предвзятыми представлениями об окружающем мире, и это часто отражается в наборах данных, которые мы используем для разработки этих алгоритмов.

«Основные человеческие предположения»

Итак, мы установили, что даже без злого умысла возможна алгоритмическая предвзятость, учитывая характер построения моделей машинного обучения и передачи данных. Но почему вообще так сложно собрать наборы данных, репрезентативных для нашего населения? Чтобы ответить на этот вопрос, мы обратимся к изучению бессознательной предвзятости.

У всех нас есть два типа предубеждений: сознательные и бессознательные.

Согласно Office of Diversity & Outreach UCSF:

«Бессознательные предубеждения - это социальные стереотипы об определенных группах людей, которые люди формируют за пределами их собственного сознательного понимания. Каждый бессознательно придерживается мнения о различных социальных группах и группах идентичности, и эти предубеждения проистекают из склонности человека организовывать социальные миры путем категоризации ».

Важно отметить, что бессознательные предубеждения не делают нас плохими; они просто делают нас людьми. Однако эти стереотипы формируют наше видение мира, и совершенно необходимо, чтобы мы понимали эти предубеждения, прежде чем надеяться создать репрезентативные наборы данных для справедливых алгоритмов.

Хорошие новости? Бессознательные предубеждения со временем могут измениться. Однако, чтобы минимизировать их влияние, мы должны проявлять инициативу в выявлении наших собственных предубеждений и принимать меры по их устранению.

Вот краткий контрольный список для начала:

  1. Пройдите тест как IAT, чтобы узнать больше о своих предубеждениях и лучше понять, как и почему мы можем принимать определенные решения.
  2. Изучите множество доступных бесплатных онлайн-ресурсов, таких как Уроки микрообучения Грово с бессознательной предвзятостью, управление предвзятостью на рабочем месте с помощью Google и Facebook или интерактивный eLesson от Microsoft.
  3. Приложите сознательные усилия, чтобы найти время и подумать о принимаемых решениях, особенно когда эти решения влияют на других.

Хорошо, теперь у нас есть базовое понимание того, как строятся алгоритмы. Мы также знаем, что неосознанная предвзятость может сыграть роль в данных, передаваемых в наши сети машинного обучения, и может предпринять шаги, чтобы гарантировать, что мы думаем о репрезентации при сборе данных в будущем.

Все в порядке? Не совсем.

Не менее важно осознавать свои собственные предубеждения, но мы также должны понимать потенциальную предвзятость, применяемую к некоторым из наиболее популярных наборов данных и уже используемых алгоритмов. Недавние исследования продолжают выявлять области, вызывающие такую ​​озабоченность, и, как демонстрирует Джой Буоламвини в своем фантастическом выступлении на TED Talk, в наши дни такая повсеместная проблема, как распознавание лиц, остается серьезной проблемой при оценке того, что составляет эталон золотого стандарта.

Можно ли устранить алгоритмический перекос?

Только послушав выступление Джой, я действительно понял серьезность комментариев AOC. Мир, в котором мы живем, полон предвзятости, сформировавшейся за тысячи лет и укоренившейся в самой ткани нашего сообщества. Так почему бы нам не ожидать, что то же самое будет в наших алгоритмах?

Машинное обучение - не новая концепция, но экспоненциальный рост вычислительной мощности ускорил внедрение в отрасли, а развитие искусственного интеллекта как услуги только подлило масла в огонь - без необходимого понимания его последствий. Хотя пока что невозможно избавиться от предвзятости наших алгоритмов, есть шаги, которые мы можем предпринять сейчас, чтобы минимизировать их влияние.

Так куда мы идем отсюда?

Практикующим абсолютно необходимо самосознание. Понимая наши предубеждения, участвуя в активном разговоре об их влиянии и создавая более строгие аудиты, мы можем быть более вдумчивыми по мере того, как курируются новые наборы данных и разрабатываются результирующие алгоритмы. Лучшее разнообразие и представительство в наших командах инженеров и специалистов по обработке и анализу данных также может иметь заметное влияние, хотя это проще сказать, чем сделать в отрасли, уже известной своим низким уровнем разнообразия.

Что касается данных, то IBM продемонстрировала, что использование открытых источников больших и тщательно проверенных наборов данных позволяет командам сосредоточиться на совершенствовании алгоритмических методов, а не беспокоиться о качестве и распределении своих обучающих данных. Однако это не всегда практично, поскольку обработка таких данных может занять очень много времени и дорого, что многие компании считают своим конкурентным преимуществом.

Другие группы, такие как Google (What-If Tool) и IBM (AI Fairness 360), разрабатывают сложные инструменты с открытым исходным кодом, чтобы помочь командам заранее выявлять предвзятость и визуализировать эффективность в различных социальных группах. Эти технологические гиганты могут быть лидерами отрасли в этой области, но они также оказались в центре внимания из-за ряда неудач на протяжении многих лет и кровно заинтересованы в решении некоторых проблем, которые они помогли создать.

Хотя каждая из этих идей представляет собой шаги в правильном направлении, на данный момент универсального решения просто не существует. Проактивная стратегия сочетает в себе несколько подходов для обеспечения учета, измерения и устранения всех возможных предубеждений во время разработки новой модели. Подобно тому, как можно изменить наши собственные подсознательные предубеждения, можно изменить и предвзятость наших алгоритмов.

Заключение

Сейчас как никогда важно, чтобы мы продолжали обучать и выступать за большую прозрачность и периодический аудит результатов, которые дают эти алгоритмы. Машинное обучение будет и дальше внедряться в нашу повседневную жизнь, и, как мы видели, если его не остановить, оно может привести к серьезным непредвиденным последствиям.

По мере того как вы будете больше думать о том, как эти алгоритмы влияют на вашу жизнь и окружающих, я настоятельно рекомендую вам переходить по ссылкам и узнавать больше для себя. Независимо от ваших политических взглядов, это проблема, которую мы, как общество, просто не можем игнорировать.