Что вы изучаете?

Технология: машинное обучение

Что вы изучаете?

О наборах данных и машинном обучении

От чат-бота Tay от Microsoft, выдернутого из Twitter после тирады сексистских и расистских высказываний, до недавнего BlenderBot 3 от Facebook, также извергающего расистские вещи, мы много слышали о том, что технологии научились у нас вредным предубеждениям. Менее заметны в разговоре мы — наша роль в сборе информации о мире и форматировании ее таким образом, чтобы машины могли учиться или использовать ее для оценки производительности машины.

Сегодня я решил погрузиться на три минуты в отличный обзор на тему наборов данных —Данные и их (не)содержимое: обзор разработки наборов данных и их использования в исследованиях машинного обучения —, чтобы рассмотреть некоторые проблемы, связанные со сбором и использованием данных. Конечно, я не могу за три минуты коснуться всего, что есть в газете, но коснусь некоторых моментов, которые меня поразили.

Данные и их (не)содержимое: обзор разработки и использования наборов данных в исследованиях в области машинного обучения
Наборы данных стали важным компонентом в развитии исследований в области машинного обучения. Способы, которыми такие…www.cell.com

В наборах данных есть то, что Кейт Кроуфорд называет «репрезентативным вредом», что может проявляться в недопредставленности людей, которые не являются белыми, западными мужчинами. Стереотипы и другие сомнительные представления (такие как оскорбительные ярлыки изображений), а также артефакты, которые приводят к ложным корреляциям (модели могут «научиться» видеть пневмонию, просто осваивая характерные для больницы отметки на рентгенограммах грудной клетки) делают наборы данных проблематичным учебным материалом. , не говоря уже о тестах производительности модели.

Несколько распространенных практик, используемых при создании наборов данных, также проблематичны: извлечение информации из Интернета (оставляя людей в неведении о том, что их фотографии Flickr используются, например, для анализа лица) и неспособность признать, что аннотирование является интерпретационной работой (аннотаторы приносят собственные ценности и предубеждения по отношению к задаче).

Выявление и исправление предвзятости может быть затруднено, поскольку наборы данных велики, но авторы опроса подчеркивают ряд усилий, как человеческих (например, Пипкин часами просматривал набор видеоданных MIT Moments in Time), так и алгоритмических, таких как как инструмент REVISE Вана и др., который просматривает изображения и их аннотации, чтобы найти предвзятость. (Гендерные предубеждения представляют для меня особый интерес, как и вывод REVISE о том, что люди, слишком маленькие, чтобы ясно видеть на изображениях, обозначаются как мужчины).

Очень интересна дискуссия об измерении производительности модели и любви сообщества машинного обучения к использованию эталонных наборов данных (которые, как мы уже видели, проблематичны). Практики вознаграждаются высшими позициями в таблице лидеров, когда модели показывают хорошие результаты в сравнении с эталонными тестами, но достаточно ли этого? Некоторые утверждают, что текущие критерии оценки слишком узки (и должны включать «отчеты о потреблении энергии, размере модели, показателях справедливости и многом другом»); другие считают, что нынешний фокус может «затормозить развитие новых идей».

Проблемы, связанные с конфиденциальностью и повторным использованием данных, также вызывают озабоченность — и каждое исследование, иллюстрирующее вред, заслуживает внимания. или даже иметь дело с телами», Пэну, который обнаружил, что даже «после того, как некоторые проблемные наборы данных о лицах были удалены, сотни исследователей продолжали цитировать и использовать копии этого набора данных спустя месяцы».

В опросе также обсуждаются трудовые и юридические перспективы, но у меня мало времени! Подробнее можно прочитать в самой статье.

Читайте больше моих работ:

Как выглядит искусственный интеллект?
Подсказка: это нечто большее, чем плавающий голубой мозгmedium.com

Удалить ее из HiStory
Как выглядит гендерная предвзятость на страницах Википедии? Как быстро он меняется?medium.com

Когда мужчины по умолчанию
Что мы можем узнать из предубеждений Википедииmedium.com

Процитированные работы

Крафт, Эми. «Microsoft закрывает чат-бота с искусственным интеллектом после того, как он превратился в нациста». CBSnews.com. (2016).

Поллада, Амандалинн, Иниолува Дебора Раджи, Эмили М. Бендер, Эмили Дентон и Алекс Ханна. «Данные и их (дис) содержимое: обзор разработки и использования наборов данных в исследованиях машинного обучения». Выкройки 2, вып. 11 (2021): 100336.

Сильва, Кристианна. «Всего за один уик-энд новый AI Chatbot от Meta стал расистом». Mashable.com. (2022).

Что вы изучаете?

Технология: машинное обучение