Технология: машинное обучение

Что вы изучаете?

О наборах данных и машинном обучении

От чат-бота Tay от Microsoft, выдернутого из Twitter после тирады сексистских и расистских высказываний, до недавнего BlenderBot 3 от Facebook, также извергающего расистские вещи, мы много слышали о том, что технологии научились у нас вредным предубеждениям. Менее заметны в разговоре мы — наша роль в сборе информации о мире и форматировании ее таким образом, чтобы машины могли учиться или использовать ее для оценки производительности машины.

Сегодня я решил погрузиться на три минуты в отличный обзор на тему наборов данных —Данные и их (не)содержимое: обзор разработки наборов данных и их использования в исследованиях машинного обучения —, чтобы рассмотреть некоторые проблемы, связанные со сбором и использованием данных. Конечно, я не могу за три минуты коснуться всего, что есть в газете, но коснусь некоторых моментов, которые меня поразили.



В наборах данных есть то, что Кейт Кроуфорд называет «репрезентативным вредом», что может проявляться в недопредставленности людей, которые не являются белыми, западными мужчинами. Стереотипы и другие сомнительные представления (такие как оскорбительные ярлыки изображений), а также артефакты, которые приводят к ложным корреляциям (модели могут «научиться» видеть пневмонию, просто осваивая характерные для больницы отметки на рентгенограммах грудной клетки) делают наборы данных проблематичным учебным материалом. , не говоря уже о тестах производительности модели.

Несколько распространенных практик, используемых при создании наборов данных, также проблематичны: извлечение информации из Интернета (оставляя людей в неведении о том, что их фотографии Flickr используются, например, для анализа лица) и неспособность признать, что аннотирование является интерпретационной работой (аннотаторы приносят собственные ценности и предубеждения по отношению к задаче).

Выявление и исправление предвзятости может быть затруднено, поскольку наборы данных велики, но авторы опроса подчеркивают ряд усилий, как человеческих (например, Пипкин часами просматривал набор видеоданных MIT Moments in Time), так и алгоритмических, таких как как инструмент REVISE Вана и др., который просматривает изображения и их аннотации, чтобы найти предвзятость. (Гендерные предубеждения представляют для меня особый интерес, как и вывод REVISE о том, что люди, слишком маленькие, чтобы ясно видеть на изображениях, обозначаются как мужчины).

Очень интересна дискуссия об измерении производительности модели и любви сообщества машинного обучения к использованию эталонных наборов данных (которые, как мы уже видели, проблематичны). Практики вознаграждаются высшими позициями в таблице лидеров, когда модели показывают хорошие результаты в сравнении с эталонными тестами, но достаточно ли этого? Некоторые утверждают, что текущие критерии оценки слишком узки (и должны включать «отчеты о потреблении энергии, размере модели, показателях справедливости и многом другом»); другие считают, что нынешний фокус может «затормозить развитие новых идей».

Проблемы, связанные с конфиденциальностью и повторным использованием данных, также вызывают озабоченность — и каждое исследование, иллюстрирующее вред, заслуживает внимания. или даже иметь дело с телами», Пэну, который обнаружил, что даже «после того, как некоторые проблемные наборы данных о лицах были удалены, сотни исследователей продолжали цитировать и использовать копии этого набора данных спустя месяцы».

В опросе также обсуждаются трудовые и юридические перспективы, но у меня мало времени! Подробнее можно прочитать в самой статье.

Читайте больше моих работ:







Процитированные работы

Крафт, Эми. «Microsoft закрывает чат-бота с искусственным интеллектом после того, как он превратился в нациста». CBSnews.com. (2016).

Поллада, Амандалинн, Иниолува Дебора Раджи, Эмили М. Бендер, Эмили Дентон и Алекс Ханна. «Данные и их (дис) содержимое: обзор разработки и использования наборов данных в исследованиях машинного обучения». Выкройки 2, вып. 11 (2021): 100336.

Сильва, Кристианна. «Всего за один уик-энд новый AI Chatbot от Meta стал расистом». Mashable.com. (2022).