Члены WiMLDS NC посетили Red Talk Инициативы по науке о данных NCSU, Секретность, уголовное правосудие и переменная важность, представленную членом WiMLDS NC Синтией Рудин!

Доктор Синтия Рудин представила увлекательный обзор моделей машинного обучения «черный ящик», часто используемых в частном секторе. Методология обычно является частной и не всегда прозрачной. Синтия выступала за интерпретируемые модели, созданные за пределами «черного ящика», а не за объяснимые модели, которые создаются, а затем объясняются задним числом, часто полагаясь на дополнительные функциональные приближения для описания внутренней работы черного ящика. Кроме того, объяснимые модели по своей природе доверяют базе данных, из которой они были созданы, что может привести к серьезным проблемам прогнозирования, возникающим из-за неизвестных, но вероятных ошибок данных. Анализ нескольких методов машинного обучения показал, что большинство методов машинного обучения имеют одинаковые показатели успешности прогнозирования, поэтому, если вы можете создать интерпретируемую модель, почему бы и нет? Синтия недавно ознакомилась с недавней заголовком статьи в национальных новостях, которая представила предостерегающий пример сильной зависимости от методов объяснимого машинного обучения.

За презентацией Синтии последовала воодушевляющая и увлекательная дискуссия с аудиторией, в ходе которой были заданы вопросы и комментарии, начиная от Как узнать, что это Черный ящик? на Важность понимания проблем, связанных с ОД и необъективными данными. Затем члены WiMLDS NC встретились с Синтией на вечеринке в Raleigh Beer Garden, совместно организованной NC Chapter of the American Statistical Association. WiMLDS NC и NC ASA отлично провели время, поболтав с Синтией о ее выступлении, а также обсудив преимущества теплой и холодной погоды и как лучше всего спланировать поход с коллегами по конференции!

Аннотация. Система правосудия США часто использует сочетание (предвзятых) лиц, принимающих решения, и сложных алгоритмов "черного ящика" для принятия решений с высокими ставками, которые глубоко затрагивают отдельных лиц. Все это происходит до сих пор, несмотря на то, что в течение нескольких лет мы знали, что интерпретируемые модели машинного обучения были столь же точными, как и любые сложные методы машинного обучения для прогнозирования преступного рецидива. Гораздо легче спорить о справедливости интерпретируемой модели, чем частной модели. Самая популярная проприетарная модель COMPAS была обвинена группой ProPublica в расовой предвзятости в 2016 году, но их анализ был ошибочным, а реальная история намного сложнее; их анализ основан на ошибочном определении важности переменной, которое использовалось для определения важности переменной расы.

В этом докладе я начну с введения очень общей формы переменной важности, называемой зависимостью от модельного класса. Надежность класса модели измеряет, насколько важна переменная для любой достаточно точной прогностической модели в классе. Я буду использовать этот и другие инструменты, ориентированные на данные, чтобы провести собственное исследование того, зависит ли COMPAS от расы и от чего еще он зависит. Благодаря этому анализу мы обнаруживаем еще одну проблему, связанную с использованием сложных проприетарных моделей, которая заключается в том, что они часто неправильно вычисляются. Простое решение всего этого заключается в использовании интерпретируемых (прозрачных) моделей вместо сложных или проприетарных моделей в уголовном правосудии.

Биография:Синтия Рудин – профессор компьютерных наук, электротехники и вычислительной техники, статистики и математики в Университете Дьюка. Она руководит Лабораторией прогнозного анализа. Ранее профессор Рудин занимал должности в Массачусетском технологическом институте, Колумбийском университете и Нью-Йоркском университете. Она имеет степень бакалавра в Университете Буффало и докторскую степень в области прикладной и вычислительной математики в Принстонском университете. Она является трехкратным победителем премии INFORMS за инновационные приложения в аналитике. Она имеет награду NSF CAREER, в 2015 году была названа одним из «40 лучших в возрасте до 40» по версии Poets and Quants, а Businessinsider.com назвала ее одним из 12 самых впечатляющих профессоров Массачусетского технологического института в 2015 году. из секции интеллектуального анализа данных INFORMS и бывший председатель секции статистического обучения и науки о данных Американской статистической ассоциации. Она также работает (или работала) в комитетах DARPA, Национального института юстиции, Национальной академии наук (как по статистике, так и по криминологии/праву) и AAAI. Она является членом Американской статистической ассоциации и членом Института математической статистики. Она является лектором Томаса Лэнгфорда в Университете Дьюка в 2019–2020 учебном году.