Я слежу за популярным освещением в прессе машинного обучения и автоматизированных систем принятия решений уже несколько лет. Я заметил очевидную ложную дихотомию в дебатах. С одной стороны, есть те, кто восхищается технологическими достижениями современной эпохи - идеей о том, что мы можем использовать их для улучшения всех аспектов нашей повседневной жизни, от медицинской диагностики и лечения до выявления моделей преступности.

Существует также вторая нить в популярных СМИ, которая вызывает беспокойство по поводу опасностей, связанных с развертыванием алгоритмов обучения в этих важных условиях, поскольку они могут в конечном итоге нарушить различные социальные нормы, которые нам дороги. Все началось со статей о конфиденциальности и приложениях, управляемых данными, в которых утечка конфиденциальной информации о людях. Теперь акцент сместился на тему (не) справедливости. То есть, если эти системы должны быть развернуты для принятия изменяющих жизнь повседневных решений в отношении людей, мы должны учитывать, как они либо закрепляют человеческие предубеждения, либо вводят новые.

Я думаю, что более взвешенная и информативная перспектива - это подумать об интеграции различных элементов, составляющих важные социальные конструкции. Другими словами, если мы собираемся начать заменять части конвейеров принятия решений, которые исторически были населены людьми, на роли, в которых мы ожидаем, что люди будут уважать различные социальные ценности, теперь мы должны начать думать о том, как мы можем напрямую кодируйте эти социальные ценности в алгоритмы. Если говорить об алгоритмах, как если бы они могли быть этичными, обе стороны спора остаются в опасном слепом пятне. В конце концов, это всего лишь человеческие артефакты. Тем не менее, эти артефакты можно использовать неэтично; точно так же, как нож может быть орудием насилия. Например, если кто-то использует нож как инструмент насилия, мы не виним нож и недостатки его конструкции - мы виним человека. Напротив, алгоритмы, особенно сложные алгоритмы, которые являются результатом процедур обучения машинного обучения, таких как обученные модели, немного отличаются по нескольким причинам.

Во-первых, важно отметить, что эти обученные модели машинного обучения обладают удивительной степенью автономности. Они могут принимать решения без вмешательства человека. Это само по себе не отличало бы их от такого инструмента, как нож, если бы люди, использующие их, имели твердое представление о том, что они будут делать в каждой ситуации. Обычно это не так, потому что типы алгоритмов, являющиеся результатом процедур машинного обучения, отделены от своих разработчиков на несколько степеней разделения. Они начинают с больших наборов данных, которые мы не можем сказать, что понимаем. Затем к набору данных применяется простая процедура обучения. Например, что-то вроде пошагового градиентного спуска.

Любой, кто знаком с этой областью, может иметь экспертные знания о процедуре обучения и понимать, что делается на местном уровне. Однако это не означает, что они понимают модель, которую он создает. Эта модель представляет собой сложное нелокальное взаимодействие между целевой функцией, процедурой обучения и данными. Поэтому мы не можем полностью понять или предсказать, что модель будет делать в каждой ситуации. Затем, если модель принимает решение, которое мы считаем несправедливым или вредным по другим причинам, будет непросто возложить вину за это решение на человека, развернувшего алгоритм (при условии, что он следовал разумной методологии), так же, как и мы. возложить этическую вину за акт насилия с применением ножа на человека, владеющего им.

Мы часто видим алгоритмы, которые кажутся причиняющими вред, и быстро делаем вывод, что они, должно быть, были разработаны какими-то злыми программистами, которые были категорически настроены на использование расистских алгоритмов. На самом деле все немного сложнее. Обычно люди, обучающие этим алгоритмам, являются экспертами, которые следуют лучшим практикам. Проблема в том, что плохие вещи все равно могут случиться. Скорость, с которой алгоритмы принимают решения, означает, что подходы к регулированию, зависящие от человеческого надзора, не будут масштабироваться. И если мы хотим, чтобы алгоритмы уважали социальные нормы и такие вещи, как конфиденциальность, справедливость, подотчетность и мораль, теперь мы должны встроить их как ограничения непосредственно в алгоритмы. Это, конечно, непросто. Это английские слова, которые для разных людей означают разное.

В отличие от конфиденциальности, справедливость еще не достигла того уровня формализации и признания, который имеет конфиденциальность. Нет общепринятого определения того, что означает справедливость алгоритма, и нет понимания того, какие компромиссы будут между навязыванием различных видов определений и количественными мерами справедливости и точности.

Так что именно мы подразумеваем под честностью? В качестве отправной точки необходимо очень хорошо подумать над определениями и попытаться преобразовать эти расплывчатые слова в точные математические ограничения. Пока что термин «конфиденциальность» - это социальная ценность, которую ученые добились наибольшего прогресса в попытках формализовать; это история успеха в этой области, и она должна послужить для формального изучения таких терминов в информатике. В этой обстановке определения действительно важны, и их трудно сделать правильными, потому что они требуют точной теоретической методологии. В примере с конфиденциальностью, многие годы синтаксических, специальных определений, развертываемых одно за другим, постоянно приводили к нарушениям конфиденциальности, примерно до 2005 года группа компьютерных ученых, получившая с тех пор премию Геделя за эту работу, не предложила определение конфиденциальности. это имело сильное семантическое значение: дифференциальная конфиденциальность. Он фокусируется на том, что произвольный сторонний наблюдатель может сделать вывод о ваших данных, исходя из результатов работы алгоритма. Они разработали практический алгоритм, который фокусируется на конфиденциальности с точки зрения возможности вывода с учетом теоретико-информационных ограничений. В последние несколько лет это определение получило широкое признание и распространение в промышленности. Он встроен в Google Chrome, iOS 10 и, что наиболее впечатляет, по данным переписи населения США 2020 года. Очевидно, что это может не служить всеобъемлющим определением конфиденциальности в том виде, в каком мы ее знаем, но это определение позволило ученым провести содержательную дискуссию о различных типах конфиденциальности. Это исследование компромисса между степенью конфиденциальности и степенью точности. В нем не говорится о том, как нам следует поступиться точностью и конфиденциальностью: он просто предоставляет язык, на котором можно вести это обсуждение. Это продолжает оставаться активной областью исследований и привело к новому пониманию того, что означает конфиденциальность с технической точки зрения, а также предоставило дорожную карту для этого направления работы, к которому следует стремиться.

Но почему машинное обучение может быть несправедливым? Это потому, что люди несправедливы? Например, если я использую четкую методологию, в которой я собираю чистые данные без человеческих предубеждений и имею разумную целевую функцию, чтобы минимизировать ошибку классификации, разве это не будет определением справедливости?

Чтобы проиллюстрировать проблему, почему алгоритм может быть несправедливым, я буду использовать пример приема в колледж. Здесь у нас есть две популяции с двумя наблюдаемыми характеристиками для каждого человека: их балл SAT и средний балл. Люди, преуспевшие в колледже, помечаются знаком «+», а те, кто не преуспел (в соответствии с выбранной вами метрикой успеха), отмечаются как «-». Среди зеленого населения (население 1) чуть меньше половины имеют положительные оценки, и менее половины имеют право учиться в моем колледже. Линейный классификатор неплохо отделяет плюсы от минусов.

Оранжевая популяция (население 2) по сравнению с зеленой составляет меньшинство, что просто означает, что оранжевых точек меньше, чем зеленых. Кроме того, оранжевые точки по какой-то причине имеют более низкие результаты SAT. Может случиться так, что зеленое население прошло тест несколько раз и показало лучший результат, в то время как оранжевое население сообщило только один балл. Однако в этом случае колледж не пытается оптимизировать результаты SAT, а пытается решить проблему классификации. В этом отношении оранжевое население лучше: ровно половина из них имеет квалификацию, а это большая часть, чем зеленое население. Отличить квалифицированных представителей оранжевой популяции довольно легко. Так что с точки зрения колледжа оранжевое население лучше, чем зеленое.

Вот две популяции вместе.

Предположим, колледж не имеет права использовать расу для принятия решений, а использует только результат SAT и средний балл. В этом случае разумным решением было бы найти линейный разделитель, который минимизирует ошибку классификации, как показано ниже.

Мы получаем линейный разделитель, который лучше всего подходит для зеленой популяции, потому что зеленая популяция больше оранжевой. Поскольку мы пытаемся минимизировать среднюю ошибку, мы не можем многое сделать, чтобы попытаться улучшить нашу ошибку для оранжевой популяции, потому что это увеличило бы ее для зеленой популяции. Глядя на это, это кажется крайне несправедливым по отношению к оранжевому населению - все его члены отвергаются, даже квалифицированные, несмотря на то, что в среднем оранжевые члены более квалифицированы. Благодаря тому, что оранжевых членов популяции стало меньше, классификатор оптимизировал разумную целевую функцию, чтобы минимизировать ошибку классификации, которая отвергает их всех.

А теперь давайте предположим, что колледжу разрешили явно использовать расу при принятии решения о приеме. Мы бы добавили отдельный классификатор для каждой популяции. Затем он будет отдельно изучать правило для зеленого и оранжевого населения. Это повысит точность классификатора, что не только выгодно для колледжа, но и будет намного более справедливым. Теперь мы можем принимать правильные решения в отношении обоих членов населения.

Как видим, несправедливость может возникнуть без злого умысла со стороны дизайнера. Заманчиво думать, что если мы не хотим, чтобы наши алгоритмы обучения демонстрировали какие-либо расовые предубеждения, мы не должны предоставлять им доступ к расовым атрибутам. Однако этот пример демонстрирует, что может быть и обратное. Мы можем добиться улучшений по Парето, пытаясь найти компромисс между тем, что мы подразумеваем под справедливостью и точностью, позволяя принимать решения в зависимости от расы. Если мы собираемся начать формализовать то, что мы подразумеваем под справедливостью, и рассматривать эти проблемы как проблемы ограниченной оптимизации, мы можем добиться большего успеха в оптимизации.

Итак, какое определение справедливости может быть хорошим наложением ограничения на алгоритм? Мы можем придумать множество ограничений для конкретного образца, но можем ли мы сделать их общими применимыми вне образца? Каков компромисс между честностью и ошибкой? Я думаю, что для того, чтобы ответить на эти вопросы, определение того, что именно означают эти термины, и включение таких слов, как «конфиденциальность» и «справедливость» с точными математическими определениями, было бы хорошей отправной точкой. Прелесть в том, что можно иметь несколько конкурирующих друг с другом понятий этих определений. Фактически, это только поможет прояснить их значение и продвинуть обсуждение. Затем следующим шагом будет понимание компромиссов между этими различными определениями на количественном уровне.

У исследователей пока нет естественных способов определения тех туманных норм, которые мы хотели бы видеть в алгоритмах. Исследования в этой области очень новые и нерешенные. Я, безусловно, с нетерпением жду более интересных событий в этом направлении исследований.

Марьям Агаларова - аспирантка факультета анализа и визуализации данных в Центре аспирантуры Городского университета Нью-Йорка.