«Не вини меня, вини машину»

В прошлый четверг я увидел несколько твитов о новой социальной сети под названием Giggle. В случае, если вы не слышали об этом, его определяющей особенностью является то, что это (предположительно) социальная сеть только для девочек, и способ, которым она подтверждает, что вы девушка, — это программное обеспечение для биометрической проверки пола. Другими словами, он использует программное обеспечение для распознавания лиц. На своем собственном сайте, они утверждают, что используемая технология не похожа на френологию. Вы знаете, направление лженауки, которое проанализировало большое количество голов различных популяций и по их общим признакам сделало обобщение о части их идентичности. Построение модели с использованием набора данных о лицах людей и определение пола на основе анализа этой моделью черт лица человека очевидно совсем не похоже на это. Если вы хотите узнать больше об этом кошмарном приложении, вы можете прочитать больше здесь и здесь.

Как указано в этом твите от indigenous.engineering, эти разработчики явно не проводили своих исследований. Если бы они это сделали, они бы знали, что технология распознавания лиц широко освещается как заведомо расистская и сексистская. На самом деле существует множество предвзятых технологий, о чем я говорил в своем предыдущем посте в блоге. Учитывая все это, почему у нас все еще есть разработчики, предполагающие, что эта технология намного более беспристрастна и безошибочна, чем она есть на самом деле?

Ответ аналогичен тому, почему люди полагали, что френология так же беспристрастна и непогрешима. Одна из причин популярности френологии заключалась в том, что она использовала более «научный» подход к определению черт. Это было не какое-то предвзятое человеческое высказывание о том, что женщины «менее подходят для успеха в искусстве и науке и больше подходят для заботы о детях и религии», а потому, что их голова была крупнее сзади и ниже лоб. Принимая объективные факты, люди стали доверять френологии, потому что наука и данные никогда не были предвзятыми. Сегодня мы, конечно, знаем, что френология была абсолютно предвзятой и что ученые и их работа могут быть абсолютно предвзятыми.

Тем не менее, вы можете увидеть много общего между людьми, утверждающими, что ИИ не предвзят, и людьми, которые утверждают, что френология не предвзята. Люди считали френологию беспристрастной, потому что к этим выводам о людях не приходил человек напрямую, это был вывод, основанный на данных. Еще одним примечательным фактом было то, что френология рассматривалась как часть психологии, области, которая все еще находилась в зачаточном состоянии. Точно так же и сегодня с искусственным интеллектом суд выносит не человек, а машина. Кроме того, то, как мы рассматриваем и обрабатываем данные сегодня, отличается от того, как мы смотрели на данные в прошлом. В своей книге Framing Big Data в главе «Большие данные в дискурсе» Мария Кристина Паганони отмечает:

Несмотря на несколько попыток категоризировать идентифицирующие признаки больших данных, в литературе до сих пор не достигнуто стабильное определение, и в дебатах очевидно «отсутствие систематического метадискурса, связанного с полисемией больших данных». (стр. 2)

Другими словами, эта область все еще настолько нова, что у нас даже нет согласованной терминологии, и точно так же мы все еще обсуждаем этику того, что мы можем и должны делать с данными. Подобно психологии во времена расцвета френологии, сегодня наука о данных — это область, которая также находится в зачаточном состоянии. Паганони утверждает, что одна из больших проблем, возникающих в связи с такой новой областью, заключается в следующем:

Методы анализа данных могут быть безобидными сами по себе, но потенциально могут привести к прогнозируемому ущербу для конфиденциальности или дискриминации данных при объединении отдельных наборов высококонфиденциальных данных (стр. 9).

Так что, по сути, даже если технология сама по себе не является неэтичной, то, как она используется или как она построена, может сделать ее неэтичной. Часто проблемы в моделях сводятся к одному или обоим из этих вопросов:

Данные необъективны
Предположения, которые создатели закладывают в модель, предвзяты.

Конечно, сама модель может не быть предвзятой, но в случае использования модели для определения того, кто получит ссуду или использования модели для определения того, кто будет нанят, данные, безусловно, будут предвзятыми, поэтому мы имеем предвзятую модель. В случае алгоритма, используемого AirBnb для запрета определенных людей, которых он считал нежелательными, мы видим проблему, когда люди, стоящие за моделью, придерживаются определенных предположений, что влияет на эффективность модели. В примере с AirBnB одно из основных предположений состоит в том, что любой, кто занимается секс-работой, либо становится жертвой торговли людьми, либо собирается использовать комнату для секс-работы. Это предположение часто далеко от истины, и поэтому у вас есть люди, которые просто хотели поехать в отпуск, которых банят навсегда. Кроме того, в этом примере алгоритм предположительно обнаруживает у человека нарциссизм, макиавеллизм или психопатию на основе его цифрового следа. Хотя не объяснено, как определяются эти черты, я полагаю, что существуют некоторые предвзятые предположения, заложенные в том, как алгоритм обнаруживает эти черты, учитывая, что мы все еще занимаемся гендерной предвзятостью при обнаружении оскорбительного языка.

В конце статьи об AirBnb есть цитата профессора Алана Вудворда, эксперта по кибербезопасности из Университета Суррея:

Мы спешим полагаться на машинное обучение при принятии решений, которые обычно люди выносят суждения.

Это проблема, потому что эта область все еще относительно новая, и мы еще много работаем. Мы все еще работаем над тем, что этично, а что нет, и мы до сих пор не согласны с тем, что означает определенная терминология. Многие люди, как за пределами, так и (что более опасно) в поле, полагают, что, поскольку мы используем компьютер, мы, наконец, преодолели предвзятость, и это не может быть дальше от истины. Измерения головы не предвзяты по своей сути, но люди, создающие правила относительно того, что они имели в виду, были предвзятыми. Алгоритм не предвзят по своей сути, но его создатели, безусловно, предвзяты.

«Не вини меня, вини машину»

Вопросы по теме