Алгоритмам машинного обучения и искусственного интеллекта все чаще доверяют для помощи или принятия чрезвычайно важных решений. Они влияют на все, начиная от приема в колледжи и заканчивая тем, как люди находят работу, одобрением заявок на получение кредита и даже правилами вынесения приговоров. Поэтому мы должны убедиться, что они, насколько это возможно, свободны от нежелательных форм предвзятости, таких как пол, этническая принадлежность, возраст, сексуальная ориентация, экономический статус и так далее.

Вложения слов могут изучать аналогии, например, мужчина относится к женщине, как король к королеве. Но исследователи обнаружили несколько ужасающий результат, когда встраивание выученного слова может выводить Мужчина:Компьютер_Программист как Женщина:Домохозяйка или Отец:Доктор как Мать:Медсестра. Это навязывает очень нездоровый гендерный стереотип. Смещение здесь взято из текста, на котором обучаются эти алгоритмы. Человечеству понадобилось много десятилетий и столетий, чтобы добиться прогресса в уменьшении подобных предубеждений. К счастью, у нас есть идеи получше, как быстро уменьшить предвзятость в ИИ, чем быстро уменьшить предвзятость в человеческой расе.

Хотя это очень активная область исследований, и мы еще далеко не в ней.

Выше приведен один пример того, как алгоритмы устраняют эти предубеждения. Допустим, мы уже изучили встраивание слов со словами, как показано выше в представлении t-sne. Мы определяем направление, соответствующее определенному предубеждению, которое мы хотим уменьшить или устранить. Способ сделать это: скажем, для случая пола мы берем вектор вложения для «он» и вычитаем вектор вложения для «она», потому что он различается в зависимости от пола. И сделайте то же самое для мужчин и женщин — и так далее, и усредните их. И это позволит нам выяснить направление смещения. После этого следующим шагом является этап нейтрализации. Поэтому для каждого слова, которое не является определяющим, избавьтесь от предвзятости. Таким образом, такие слова, как доктор и няня, мы проецируем на ось смещения, чтобы уменьшить или исключить их компоненты в направлении смещения. И затем последний шаг называется уравниванием, в котором у нас могут быть пары слов, такие как бабушка и дедушка или девочка и мальчик, где мы хотим, чтобы единственной разницей в их встраивании был пол. Итак, что мы делаем, так это убеждаемся, что эти слова находятся на одинаковом расстоянии от слов, которые должны быть нейтральными в гендерном отношении, таких как няня или доктор.

Как мы решаем, какое слово нейтрализовать?

Так, например, слово «доктор» похоже на слово, которое мы должны нейтрализовать, чтобы оно не определяло гендерную или этническую принадлежность. Принимая во внимание, что слова «бабушка» и «дедушка» или «борода» не должны быть неспецифическими для пола. Итак, что исследователи сделали, так это обучили классификатор, чтобы попытаться выяснить, какие слова являются определениями.

Подводя итог, можно сказать, что уменьшение или устранение предвзятости наших алгоритмов обучения является очень важной проблемой, потому что эти алгоритмы просят помочь или принять все более и более важные решения в обществе.

Мы увидели одну идею того, как попытаться решить эту проблему, но многие исследователи все еще продолжают активно исследовать эту область.