Как вы, наверное, слышали, IBM собирается выпустить симпатичный монструозный набор данных — более миллиона изображений — вместе с инструментом, и все это с целью помочь избавиться от предвзятости при анализе лиц. Самое интересное для меня — это анонс второго набора данных — около 36 000 изображений, — которые равно распределены по оттенкам кожи, полу и возрасту».

Итак, почему это важно? Прежде чем ответить на этот вопрос, давайте сначала немного отвлечемся.
Допустим, вы занимаетесь чем-то, связанным с машинным обучением и распознаванием лиц. Вам понадобится набор данных для обучения ваших моделей — подумайте, как вы выберете свой набор данных. Вы, вероятно, примете во внимание специфику задачи (Мне нужно знать, улыбается лицо или нет), детали алгоритма, над которым вы работаете (Могу ли я сказать, что это улыбка, если фон изменится?") и тому подобное. Затем вы переходите к одной из «удобных коллекций баз данных распознавания лиц и выбираете наиболее подходящую. Например,
• Для простого и неограниченного распознавания лиц можно выбрать LFW-a или
• Для мультяшных версий знаменитостей можно выбрать IIT-CFW
и т. д.

Это работает.
Или, я должен сказать, это «работает» (умышленно пугающие кавычки!), если вас не волнует предвзятость в результатах.
Это означает, что он на самом деле ужасно терпит неудачу, когда вы начинаете смотреть на такие вещи, как то, как результаты работают с женщинами или людьми с темной кожей и так далее. Потому что оказывается, что базовые данные, используемые в этих базах данных, плохо распределены по полу, оттенку кожи и т. п.! А это означает, что ваши алгоритмы обучаются на необъективных данных, что означает что они сами предвзяты! 😡

Я не просто выдумываю — в недавней статье (•) Буоламвини и Гебру изучили два распространенных эталонных теста анализа лица (IJB-A и Adience) и обнаружили, что данные в подавляющем большинстве случаев относятся к светлокожим субъектам ( 79,6% для IJB-A и 86,2% для Adience). Хуже того, они протестировали коммерческие продукты от IBM, Microsoft и Face++ и обнаружили огромные расхождения при анализе темнокожих людей.
На самом деле темнокожие женщины живут хуже всех, с частотой ошибок почти 35% по сравнению с ‹ 1% для светлокожих мужчин!!! (••)

Посмотрите следующее видео об этом. И да, если вы не хотите сидеть с этим, просмотрите результаты на GenderShades.org — это займет у вас меньше минуты и должно привести вас в ужас. Затем посмотрите видео.

Обо всем этом следует помнить, что автоматизированные системы не являются нейтральными по своей сути. Они отражают приоритеты, предпочтения и предубеждения — закодированный взгляд — тех, кто может формировать искусственный интеллект».

Что приводит нас к недавнему тесту ACLU системы распознавания лиц Amazon, который счастливо идентифицировал целую группу членов конгресса как людей, арестованных за преступление, из которых непропорционально большое количество были цветными!
И да, если вы поговорите с Amazon (или, честно говоря, с любым из поставщиков), вы, вероятно, получите в ответ такие ответы, как Вы не откалибровали его правильно, Мы просто предоставляем алгоритмы, вам решать, как правильно их реализовать, и Предупреждать об ошибках. Что на самом деле не затрагивает основную проблему, заключающуюся в том, чтовам не нужно прогибаться назад, чтобы поступать правильно!

И это возвращает нас к набору данных IBM, 36 000 изображений, равно распределенных по оттенкам кожи, полу и возрасту». Это, по крайней мере, позволит людям проверить свои алгоритмы на предвзятость на действительно разнообразном наборе данных и посмотреть, как они работают. А если они этого не делают, мы можем видеть, что они этого не делают, и должным образом держать их ноги в огне.

Намного больше информации об алгоритмической предвзятости в Лиге алгоритмической справедливости. Я настоятельно призываю вас проверить это…

(•) Гендерные оттенки: различия в точности пересечения в коммерческой гендерной классификации» — Джой Буоламвини и Тимнит Гебру

(••) Почти все участники восприняли эти результаты весьма серьезно. Вы можете увидеть ответы IBM и Microsoft в этом FAQ. Тем не менее, это не быстрое решение. Как я уже говорил, посмотрите Алгоритмическую лигу справедливости.

(Эта статья также есть в моем блоге)