Действительно ли «хорошие» данные предвзяты?

Когда данные не отражают «справедливую» реальность, изменяем ли мы их, чтобы они соответствовали нашему идеалу?

Возможно, самая опасная предвзятость — это когда мы предполагаем, что у нас нет предвзятости, а предвзятость есть у всех. Если вы думаете, что вы единственный человек без предубеждений, вы можете перечитать это последнее предложение несколько сотен раз. Предвзятость частично основана на опыте, который создает предубеждения (разве это не звучит менее жестко, чем предубеждение?) или стереотипы¹, и мы бессознательно подтверждаем эти предубеждения из-за предвзятости подтверждения¹. Не только это, но и наша природа (или, может быть, воспитание) придерживаться идеи о том, что то, во что мы верим, является правдой на самом деле (даже если это не так) благодаря избирательному восприятию¹.

Кто/что, черт возьми, заставило нас кричать в голос!?! Какой (когнитивный) беспорядок!

Я много думал о нашем человеческом состоянии в контексте этики машинного обучения (это часть курса, который я веду в Технологическом университете Капитолия), и то, что мы обсуждали, постоянно крутится у меня в голове:

Модели не предвзяты, только данные, используемые для их создания.

Теперь, прежде чем кто-либо начнет рассказывать обо мне все технические подробности, я знаю, что модели могут быть созданы предвзятым образом, данные могут быть отобраны и обработаны предвзятым образом, а лежащие в основе алгоритмические принципы могут быть основаны на человеческих предубеждениях. Но даже идеальная модель может отражать только те данные, которые использовались для ее обучения.

Эта последняя часть поразила меня особенно сильно, когда я услышал о том, как встраивание слов связывает термины «мужчина по отношению к компьютеру то же, что женщина по отношению к домохозяйке». что специалисты по обработке и анализу данных, создавшие исследование, довольно умны и, похоже, не имеют ничего против женщин. Затем в моей голове возник вопрос, который не утихает и по сей день — действительно ли эта модель действительно хорошо сделана, но отражает сексистский мир? И если это так, должны ли мы изменить «настоящую» реальность (т. е. данные), чтобы она соответствовала нашему представлению о том, что она должна отражать? И если мы это сделаем, то действительно ли многие «хорошие» модели предвзяты?

А если они предвзяты, этично ли это?

Может быть, более глубокий вопрос заключается в том, что если модели машинного обучения помогают нам делать выбор и создают наши бессознательные предубеждения (например, механизмы рекомендаций), возможно ли, что «реальность» становится миром грез, созданным компьютером?

(Подождите, это звучит действительно знакомо…)

Мои аргументы за и против дополненной реальности

Я делаю шаг вперед, предполагая, что мои вступительные аргументы заслуживают внимания. Можно с полным основанием утверждать, что мои аргументы чрезмерно упрощают вещи. Но это статья, а не диссертация, так что считайте ее полубеллетристикой. Если мы изменим данные, чтобы они соответствовали идеалу, мы дополним реальность, и я считаю, что у этого понятия есть свои плюсы и минусы.

Во-первых, мой аргумент в пользу новой реальности: я думаю, что мир мог бы использовать массовую перестройку. На протяжении тысячелетий мне кажется, что человечество было жертвой ужасных предубеждений, направленных против всех, кроме избранных (вы знаете, кто вы, или, может быть, это «мы»), и они оставили после себя поток вводящих в заблуждение данных (книги , журналы, блоги, фильмы, наборы онлайн-данных, телешоу и, возможно, даже наше собственное подсознание). Что плохого в том, чтобы промыть мозги грязному разуму и переписать наше подсознание идеализированными данными, которыми мы (по крайней мере, в Америке) всегда заявляли (но на самом деле никогда даже близко не подходили)? Я имею в виду, что хорошо для гуся, хорошо для гусака, верно?

Не заблуждайтесь, против этой идеи тоже есть аргументы, в первую очередь то, что нам не нужно ничего менять, кроме нашего поведения, и в конечном итоге идеал станет реальным. Мы создаем больше данных быстрее, чем когда-либо в истории, а это означает, что не потребуется много времени, чтобы все эти плохие данные были узурпированы хорошими данными. (Это и аргумент против дополненной реальности, потому что слишком много людей идут в очень неправильном направлении.)

Мое последнее предложение — это беглый взгляд на другую часть моего аргумента против дополненной реальности — кто решает этот новый мировой порядок? Мне? Ты? Какая-то группа теории заговора? То, что создает это мышление, — это курс на столкновение с тем, чтобы стать именно тем, чего мы изначально пытались избежать: неизбежностью НАШЕГО предубеждения, просто заменяющего ИХ предубеждение, потому что, в конце концов, это все предубеждение, которое может быть бессознательно столь же опасным и вредным (плохим). люди редко знают, что они плохие, так что я могу быть худшим здесь).

Что приводит меня к последнему вопросу — действительно ли реальность просто предвзятость, замаскированная под что-то реальное?

«…есть разница между знанием пути и идущим по пути».²

использованная литература

[1] Психология сегодня, Предвзятость (н.д.), Психология сегодня.

[2] Вачовски, Л., и Вачовски, Л. (1999). Матрица. Ворнер Браззерс.

[3] Болукбаси, Т., Чанг, К., Цзоу, Дж. Ю., Салиграма, В., и Калай, А. (2016). Мужчина для программиста, как женщина для домохозяйки? Устранение предвзятости встраивания слов. NIPS.

Действительно ли «хорошие» данные предвзяты?

Мои аргументы за и против дополненной реальности

использованная литература

Вопросы по теме