Как интеллектуальные системы повреждают данные

Мы давно не слышали об использовании машинного обучения для ускорения процесса найма. Сначала это кажется отличным применением машинного обучения или ИИ в целом, но потом возникают некоторые вопросы. Дело в том, что при неосторожном использовании интеллектуальные системы не только искажают наше восприятие, но и искажают наши данные, что, в свою очередь, искажает точность будущих прогнозов.

Допустим, у нас большая компания с кучей вакансий и огромным количеством соискателей на эти должности. Поскольку просмотр всех резюме займет много времени и усилий, мы решили создать прогнозную модель для отбора этих кандидатов. Мы обучаем нашу модель на данных о квалификации наших текущих сотрудников, чтобы распознавать общие характеристики тех, кто успешно прошел наши собеседования и попал в фирму. Затем эта модель оценивает кандидатов и выводит 20 наиболее подходящих кандидатов из первоначальных 1000. Наконец, мы приглашаем этих 20 на собеседование, а затем отбираем 5 лучших.

Все еще хорошо до этого момента. Однако спустя 3 месяца у нас снова есть открытые позиции и мы приглашаем новичков. Поскольку количество кандидатов огромно, нам нужна помощь нашей прогностической модели. Мы переобучаем модель, чтобы она была более актуальной и была готова к ее обычной работе: сканированию резюме. Вот где возникает проблема. Наши обучающие данные на этот раз содержат 5 новых выборок, и эти 5 являются смещенными выборками. Они необъективны, потому что 5 новичков выбираются из 20 кандидатов, которым отдавала предпочтение наша старая модель. Вот как наша старая модель повредила данные, используемые для обучения новой модели, из-за чего на новую модель повлияли предпочтения старой модели.

Представьте, например, что наша старая модель после тщательного анализа пришла к выводу, что иметь диплом в США и быть белым — это лучшие показатели хорошего сотрудника, в то время как иметь высшее образование в Азии и быть чернокожим — очень плохие черты. Таким образом, список 20 лучших кандидатов, который он выдал, содержит всех белых парней и/или окончивших университет в США, а черных и выходцев из Азии полностью игнорирует. Следовательно, наши 5 новичков, которые являются частью этого списка из 20, все белые и/или из США. По мере того как они добавляются к нашим данным для обучения новой модели, черты быть белым и иметь ученую степень в США в дальнейшем сохраняются, благодаря чему новая модель отдает предпочтение этим двум показатели еще больше. Чернокожие и азиаты никогда не смогут пройти этап сканирования резюме, какими бы хорошими они ни были, просто потому, что в компании не было никого с такими качествами, когда была построена первая модель.

Вышеприведенное — пример того, как интеллектуальные системы могут испортить нам работу, если мы не уделяем должного внимания тому, как они работают. Чтобы предотвратить подобное, нам нужно быть более осторожными с входными и выходными данными наших моделей, с тем, как наши модели обрабатывают входные данные и производят выходные данные, с метриками оценки и, что наиболее важно, с эффектами и побочными эффектами, которые модели может сделать.

Первоначально опубликовано в Блоге TungMPhung.

Как интеллектуальные системы повреждают данные

Вопросы по теме