Предвзятость совершает прорыв в науке о данных

Лучшие советы по нанесению ответного удара

Этика сильно бьет по мне, потому что я занимаюсь социальной психологией. Я провел 5 лет, тесно сотрудничая с социальными психологами и биопсихологами, чтобы понять, как социальное неблагополучие влияет как на мозг, так и на тело.

Моя диссертация была посвящена пониманию того, как стереотипы используются для дальнейшего ущемления людей.

Так что да, этика — важная тема, и я рад, что она поднимается на поверхность в науке о данных. К сожалению, большинство специалистов по данным не являются также и психологами.

Таким образом, им не хватает четкого понимания того, как наука о данных может повлиять на социально незащищенные слои населения, что, в свою очередь, также влияет на точность наших моделей.

Вероятно, наиболее заметной областью в науке о данных и этике сейчас является предвзятость моделей. То есть степень, в которой наши модели демонстрируют предвзятость по отношению к конкретным социально незащищенным группам.

Например, было показано, что модели компьютерного зрения плохо справляются с идентификацией цветных людей на изображениях. Было показано, что прогностические модели изучают предвзятость, присущую обучающим данным, и приводят к благоприятному отношению к большинству социальных групп.

Проблема не новая. Модели всегда были предвзятыми. Это потому, что данные, на которых они обучаются, часто так или иначе предвзяты.

Возьмем, к примеру, здравоохранение. Обучение модели на данных здравоохранения означает, что наши модели изучат предубеждения, присущие поставщикам медицинских услуг, когда они ставят диагнозы. Общеизвестно, что медицинские работники демонстрируют предвзятость в диагностике. Например, у женщин гораздо чаще диагностируют эмоциональное расстройство, чем у мужчин, хотя бесчисленные исследования показывают, что мужчины страдают от эмоциональных расстройств не меньше, если не больше, чем женщины.

Причина, по которой эта старая проблема сегодня так актуальна для специалистов по данным, связана с масштабом и повсеместностью науки о данных и искусственного интеллекта. Пожалуй, ни разу в истории мы не видели так много компаний, использующих науку о данных в своих продуктах. Таким образом, предвзятость в наших моделях теперь может повлиять на миллионы людей в зависимости от приложения.

Страшная тема, я знаю, но тем не менее важная. Таким образом, я хочу бросить вам вызов, когда вы проходите свой путь изучения науки о данных, чтобы подумать, как вы можете работать над преодолением предвзятости при построении моделей с данными. Вот лишь несколько советов, которые следует учитывать:

1. Убедитесь, что переменные, используемые в моделях, не настроены так, чтобы усугубить предвзятость. Например, использование этнической принадлежности в качестве переменной в модели может иметь такой эффект, поэтому часто лучше их не учитывать.

2. Следите за своими моделями в производстве, наблюдая за тем, как положительные прогнозы распределяются между различными социальными группами. Начните с пола и расширяйте, если для этого доступны данные.

3. Имейте в виду, что только потому, что ваша модель может предсказать большую вероятность для одной социальной группы по сравнению с другой, не означает, что она предвзята. Мы также должны учитывать, какое распределение мы можем ожидать найти, изучая другие источники, такие как первичные исследования.

4. Всегда ищите дополнительные источники данных, которые можно смешивать с вашими тренировочными данными.

5. Всегда будьте в курсе и задавайте вопросы своим моделям, особенно когда они приближаются к тому, чтобы коснуться людей в наших сообществах, которых мы хотим, чтобы они коснулись.

Хотите узнать о науке о данных, карьерном росте, жизни или неправильных бизнес-решениях? Подпишитесь на мою рассылку здесь и получите ссылку на мою бесплатную электронную книгу.

Предвзятость совершает прорыв в науке о данных

Вопросы по теме