или «Никогда не доверяйте продавцу использованных алгоритмов»

Было время, когда многие из нас знали, как менять масло и ремень ГРМ, поддерживать двигатель в рабочем состоянии и чинить тормоза. Автомобили стали сложнее, а мы стали менее механическими, но одно не изменилось: если вы покупаете подержанный автомобиль, вы не можете доверять продавцу, который скажет вам, что с ним не так.

Если вы правительственный чиновник, покупающий алгоритм, позиционируемый как прогнозная аналитика, искусственный интеллект или машинное обучение, верно то же самое. Хорошо, если у вас есть механик, которому вы доверяете. Еще лучше, если у вас есть некоторое представление о том, что искать для себя.

Алгоритмические решения продаются с обещаниями эффективности, точности, справедливости и скорости. Но каким бы блестящим ни был инструмент, прислушайтесь к двигателю, возьмите его на тест-драйв и загляните под капот.

Капот заварен?

Частные компании часто лицензируют свое программное обеспечение как «алгоритмы черного ящика», продавая использование своего программного обеспечения без права просмотра исходного кода. Существует противоречие между интересами интеллектуальной собственности поставщиков и способностью любого потенциального покупателя оценить продукт, претензии продавца и возможные непредвиденные последствия.

Для государственного покупателя, использующего алгоритмы для принятия решений, затрагивающих его граждан, существуют дополнительные соображения относительно справедливости, дискриминации и надлежащей правовой процедуры. Разглашение слишком большого количества информации может несправедливо навредить отдельным лицам или компаниям. Город Питтсбург обнародует оценки пожарной опасности коммерческих зданий на уровне кварталов, а не на уровне зданий, чтобы избежать непреднамеренного ущерба репутации и потери бизнеса. ¹ Но неразглашение информации также может быть проблематичным и даже неконституционным. В К.В. против Армстронга, 2012 г., отсутствие объяснений, когда алгоритм черного ящика уменьшил пособия по инвалидности по программе Medicaid штата Айдахо, не соответствовал конституционным требованиям надлежащей правовой процедуры в отношении изъятия государством частной собственности». ²

Если вам нужен доступ к данным и исходному коду, помните, что покупка черного ящика — это выбор, сделанный в ходе переговоров по контракту. Это не единственный вариант. Города и округа создают наборы данных и разрабатывают программное обеспечение собственными силами, нанимают подрядчиков для создания работ по найму, работают с учеными и фондами, которые хотят обеспечить публичный доступ, и различными способами делят права ИС с партнерами. Некоторые города и округа предоставляют значительный публичный доступ к своему коду. Модель оценки риска пожара в коммерческом здании Питтсбурга находится в свободном доступе на Github ³, а модель оценки риска службы защиты детей округа Аллегейни доступна для лиц с утвержденной институциональной принадлежностью, включая ученых и журналистов.

Ведя переговоры с коммерческими поставщиками, очень крупный город может иметь право требовать значительных уступок в переговорах или выделения бюджета для финансирования внутреннего развития, но небольшие города могут объединять ресурсы или усиливать переговорную позицию через такие ассоциации, как Civic Analytics Network, национальная сеть. руководителей городских центров обработки данных в США или канадского Совместного собрания по управлению ИИ BC, межведомственного сотрудничества в масштабах всей провинции для разработки региональных передовых методов ИИ.

IP-адрес стороннего алгоритма — не единственное препятствие для прозрачности и объяснимости. Один гражданин может быть не в состоянии понять и оспорить свой собственный счет без доступа к данным, помимо его собственных, которые иногда невозможно предоставить без нарушения прав на неприкосновенность частной жизни других граждан. Даже у разработчиков программного обеспечения, имеющих полный исходный код и доступ к данным, может быть неполное понимание из-за технического компромисса в выборе алгоритма между объяснимостью и точностью.

Какое топливо требуется?

Независимо от того, есть у нас доступ к исходному коду или нет, мы можем кое-что понять об алгоритме, понимая, каковы его входные данные, как они были получены и как они могут коррелировать с другими переменными.

Как вы будете получать данные?

Некоторые алгоритмы имеют относительно скромные требования к данным, но для обучения модели машинного обучения часто требуются десятки или сотни тысяч фрагментов данных или более. Разработка модели и написание кода может быть намного проще, чем подготовка данных, поэтому один из первых вопросов будет заключаться в том, есть ли у вас тип и количество данных, которые потребуются алгоритму, и инфраструктура для их использования. Если вы разрабатываете модель или оцениваете программное обеспечение поставщика, спросите экспертов из соответствующих отделов (пожарной службы, полиции, здравоохранения и социальных служб, судов, общественных работ, ИТ...), какие факторы они используют при принятии решений, что, по их мнению, будет быть полезными, какие данные доступны, сколько работы потребуется, чтобы подготовить их к использованию, и кто будет выполнять эту работу.

Думая о доступности данных, учитывайте возможную неполноту, неточности и предвзятость, а также вопросы конфиденциальности и безопасности.

Редкие случаи, неточности и предвзятость

Данные, используемые для обучения и тестирования модели, должны быть репрезентативными для данных, с которыми модель столкнется при использовании, хотя вам может потребоваться чрезмерное представление необычных случаев в данных, чтобы дать вашей модели достаточно примеров для обучения.

Может быть трудно заранее узнать, являются ли ваши данные достаточными или репрезентативными, но вы должны включить примеры общих значений и пограничных случаев, подумать о том, как ваш источник данных может иметь известную систематическую ошибку, и попытаться сделать так, чтобы ваша модель не сработала (а затем исправить). это) в тестировании. В качестве примера предвзятого источника данных, если вы используете только информацию о бизнесе от Торговой палаты, вы получите только подмножество предприятий города. Вы не учитываете большинство технологических стартапов, крупных корпораций, юридических фирм и мелких строительных подрядчиков, характеристики которых сильно отличаются от членов Палаты и друг от друга. Если вы хотите, чтобы ваша модель включала все виды бизнеса в вашем городе, вам нужно найти способы получить данные от этих других видов бизнеса.

Отдельные лица или компании могут пострадать из-за неточностей или предубеждений в вашей модели или данных, основанных на характеристиках, о которых вы не знали, что используете их. Например, если ваша модель оценки риска нарушения санитарного законодательства ресторана использует обзоры Yelp в качестве входных данных , мы можем обнаружить, что расовые предрассудки рецензентов искажают оценки для определенных ресторанов. Имейте в виду, что модели машинного обучения могут не только передавать предвзятость данных, но и преувеличивать ее.

Переменное использование и прокси

Модель может иметь доступ к сотням или сотням тысяч переменных. Спросите, какие из них имеют наибольший эффект и имеет ли это значение. Иногда модель может предоставить эту информацию в глобальном масштабе, даже если в конкретном случае она не может этого сделать. Информация об использовании и важности переменных может помочь вашим сотрудникам оценить производительность модели и выявить недобросовестное или незаконное использование, например запрещенное конституцией использование статуса защищенного класса. Это также может расширить их собственный опыт в предметной области, раскрывая или объясняя взаимосвязь в данных, которых они раньше не видели. Ищите прокси, такие как почтовый индекс, часто сильно коррелирующий с расой.

Насколько велики/плохи переменные гэпы?

Что у нас есть и что мы хотели бы иметь

У нас есть только определенные данные, доступные для использования в компьютерных моделях, что часто приводит к различию между переменными, которые мы хотели бы использовать, и переменными, фактически используемыми в моделях машинного обучения, как для независимых входных переменных, так и для зависимой переменной, которую мы пытаемся предсказывать. Мы должны задаться вопросом, насколько велики эти пробелы, какие последствия мы ожидаем от них и что мы можем сделать, если они кажутся проблематичными.

Разрыв и расовая принадлежность: «арест» как показатель «совершения преступления»

Например, предположим, что мы разрабатываем такой инструмент, как COMPAS, компьютеризированный инструмент оценки рисков уголовного правосудия, широко используемый в США. Чтобы помочь судьям использовать опасность человека для общества в качестве фактора для определения срока наказания, мы могли бы попытаться предсказать, насколько вероятно, что кто-то совершит преступление в течение нескольких лет после освобождения из тюрьмы.

Ни у кого нет надежных данных о том, совершают ли люди преступления после освобождения. Что доступно, так это записи об арестах и ​​осуждениях, и есть пробел. Некоторые люди совершают преступления, за которые их никогда не арестовывали, а других осуждают за преступления, которых они не совершали. Хотя этот разрыв может быть проблематичным для вынесения уголовных наказаний среди населения в целом, мы должны быть особенно осторожны, зная, что этот разрыв по-разному влияет на разные группы. Нью-Йорк Таймс сообщила, что в Нью-Йорке чернокожих арестовывают за хранение марихуаны в восемь раз чаще, чем белых, в то время как правительственные опросы показывают, что чернокожие и белые употребляют марихуану примерно в одинаковой степени». »

Разрыв и бедность: «доступ к окружным службам охраны психического здоровья»

В некоторых случаях разрыв настолько велик, что нас указывают в противоположном направлении, предсказывая противоположное тому, что мы думали. «Обращение к окружным службам охраны психического здоровья» на первый взгляд звучит как аналог «Имеет проблемы с психическим здоровьем, опасные для ребенка» в модели служб защиты детей и кажется проблематичным, поскольку визиты к частным врачам в области психического здоровья более состоятельных граждан не будут регистрироваться. Но «доступ к медицинским услугам» на самом деле может быть гораздо лучшим показателем для «будет получать доступ к ресурсам для обеспечения безопасности ребенка».

Функции безопасности

Безопасность данных и конфиденциальность

Граждане и городские власти могут считать некоторые данные конфиденциальными, даже если это не предусмотрено законом, но, как минимум, должны знать, что сбор, хранение и использование данных создает юридические обязательства в нескольких юрисдикциях. Вы должны спросить, какие данные будет использовать или создавать алгоритм, которые закон может считать конфиденциальными, какие юридические обязанности возникнут и какие ресурсы потребуются для их выполнения.

Любой проект данных, который вы рассматриваете, также вносит вклад в кумулятивную опасность. По мере увеличения сбора данных, взаимосвязанности и зависимости от цифровых и алгоритмических систем ваш город и жители становятся все более уязвимыми для утечки данных и атак программ-вымогателей, таких как атака на город Атланта в 2018 году.

Использование и изменение варианта использования

Спросите, считают ли ваши избиратели желательным такой сбор и использование данных. Загляните в будущее и подумайте, какие варианты использования данных или модели могут возникнуть на следующей неделе или через десять лет. Местные или федеральные правоохранительные органы могут захотеть установить камеры на коммерческих роботов-доставщиков в городе или получить доступ к данным датчиков фонарных столбов, изначально собранных для мониторинга пробок на дорогах. Отраслевые партнеры могут иметь другое использование данных, которое вы не хотите разрешать. Устраните ограничения на использование в контрактах и ​​общедоступных сообщениях сейчас и внедрите процесс оценки вариантов использования в будущем, когда они будут предложены для реализации.

Уровень риска и обнаружение сбоев

Без надежной достоверности для сравнения наших прогнозов может быть трудно понять, насколько хороши наши результаты. Хуже того, мы не узнаем, когда алгоритм сработает ужасно неправильно. Найдите способы измерения уровня риска ¹⁰ и способы обнаружения отказа. Спросите, какие неправильные ответы может дать модель, какой вред будет причинен и как вы об этом узнаете.

Проверка системы

Доступа к исходному коду и всем обучающим данным может быть недостаточно, чтобы иметь представление о том, каких результатов следует ожидать от модели, даже для эксперта. Некоторые прогностические модели машинного обучения, основанные на нейронных сетях, особенно трудно расшифровать. Но даже модель глубокого обучения «черный ящик» не означает, что вы не можете требовать определенного уровня понятности и уверенности.

Ручная проверка частичного набора данных

Попросите сотрудника вручную просмотреть подмножество обучающих и тестовых данных.

В 2015 году фототег Google, как известно, ошибочно идентифицировал некоторых афроамериканцев как горилл. ¹¹ Мы можем представить факторы, которые могли способствовать этому — нехватка фотографий чернокожих или корреляция между расой и другими характеристиками, такими как тип одежды, окружение и занятия.

Ошибки идентификации были очень редки, поэтому инженер, просматривающий сотню случайных тестовых изображений, не наткнулся бы ни на одно, но, ища закономерности в сотне обучающих изображений, тот же инженер мог бы заметить, если бы все были европеоидами.

Непрерывность/стабильность модели

Даже если вы не знаете, как используются переменные, или не знаете, какой ответ должна дать вам модель, вы получаете некоторую информацию из непрерывности или стабильности результатов. Немного измените некоторые тестовые входные данные и посмотрите, как изменится результат.

Воздействие на граждан

Подумайте, как принятие этого инструмента для этого конкретного приложения повлияет на граждан, сотрудников и рабочие процессы и возможности отдела. Спросите, как использование этого алгоритма повлияет на справедливое распределение государственных ресурсов, осмысленную способность граждан понимать и обжаловать решения правительства, которые их касаются, или любые другие обязанности или права.

Контрольный список влияния отдела

Составьте контрольный список, чтобы подумать о том, как этот инструмент повлияет на сотрудников и отделы. Вот начало:

  • Поговорите с конечными пользователями и заинтересованными сторонами об их потребностях и проблемах
  • Убедитесь, что этот продукт решит реальную проблему
  • Создайте инструмент, который сотрудники захотят использовать
  • Создайте инструмент, который горожане захотят использовать в городе
  • Спланируйте, как инструмент может хорошо вписаться в существующие рабочие процессы, возможно, интегрируясь в существующий интерфейс.
  • Поймите, как этот инструмент может повлиять на безопасность работы и удовлетворенность сотрудников или вызвать другие страхи — по возможности решите эти проблемы (например, есть ли план по трудоустройству сотрудников на другие рабочие места аналогичного качества, если их нынешние рабочие места исчезнут?)
  • Как это повлияет на возможности ведомства

Стоимость топлива, технического обслуживания, ремонта и срока службы

Этот проект гораздо больше, чем дизайн модели

Учитывайте затраты на создание инфраструктуры и сбор, подготовку и защиту данных не только в начале, но и на протяжении всего жизненного цикла проекта. Спланируйте, какую работу необходимо будет выполнить, кто будет ее выполнять и какие ресурсы им потребуются. Новые проекты легче финансировать, чем текущее обслуживание, но в течение срока действия программы затраты на обслуживание могут быть намного выше.

  • Переговоры о финансировании проекта и партнерстве
  • Создайте необходимую инфраструктуру данных
  • Соберите и подготовьте данные
  • Разработайте и внедрите инструмент, консультируясь с пользователями и экспертами в предметной области
  • Интегрируйте инструмент в существующие рабочие процессы
  • Тестировать и оценивать дизайн, прототип и инструмент, включая оценку этического риска
  • Исправьте, если не работает
  • Обновление новыми данными по мере необходимости
  • Мониторинг неожиданных последствий, долгосрочная оценка
  • Общественные коммуникации

Сравните модели отношений и лицензирования

Сравните годовое лицензионное соглашение, разовую покупку, собственную разработку, работу по найму, партнерство или другие договоренности на основе первоначальных и долгосрочных затрат, рисков, ответственности и прав интеллектуальной собственности. Рассмотреть согласованное перераспределение затрат, рисков и прав.

Тест-драйв

Ознакомительный период и доступ для тестирования

Если вы работаете со сторонним поставщиком, договоритесь о периоде оценки и достаточном доступе для тестирования.

Решите, как измерить успех

Подумайте о цели программного обеспечения, будь то более эффективное дублирование существующих прогнозов, решений или расчетов или принятие лучших решений по каким-либо другим параметрам. Работая с экспертами в области вашего отдела, определите подходящий способ измерения успеха. Если у вас есть хорошая наземная правда, используйте ее.

Сравните результаты с существующим методом и интуицией эксперта

Тестирование и развертывание должны включать сравнение прогнозов, решений или расчетов, сделанных вашим старым методом, если он у вас есть, с предлагаемым новым методом. Зарезервируйте достаточно исторических данных для отдельной проверки и тестирования. Использование инструмента или обзор выбранных результатов экспертом в предметной области в отделе, который будет использовать инструмент, может указать на случаи, когда результаты модели не согласуются с интуицией эксперта. Расследуй дальше. Это могут быть недостатки модели или они могут раскрыть новую информацию, которую не знал ваш эксперт.

Поэтапное тестирование и развертывание

Используйте план поэтапного тестирования и развертывания, чтобы выявлять проблемы до того, как они окажут серьезное влияние. Офис Medicaid в Айдахо почти наверняка обнаружил бы ошибки в коде своего поставщика, избежал бы судебного разбирательства и вреда своим гражданам ¹², если бы они продолжали выплачивать пособия на основе своего старого метода, рассчитывая пособия в обоих направлениях и сравнивая результаты перед развертыванием. .

Гарантия

Прежде чем подписать договор о закупках, согласуйте методы оценки. Если программное обеспечение не делает того, что обещал поставщик, или того, что вы ожидали от него, какой у вас будет выход? Спросите, какие гарантии готов предоставить поставщик и какие гарантии вам потребуются.

[1] Интервью с пожарным инспектором Питтсбурга Скертичем, апрель 2018 г.

[2] https://www.aclu.org/blog/privacy-technology/pitfalls-artificial-intelligence-decisionmaking-highlighted-idaho-aclu-case

[3] https://github.com/CityofPittsburgh/fire_risk_analysis

[4] http://www.govtech.com/dc/articles/What-Can-Boston-Restaurant-Inspectors-Learn-from-Yelp-Reviews.html

[5] https://www.wired.com/story/machines-taught-by-photos-learn-a-sexist-view-of-women

[6] https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm

[7] https://www.nytimes.com/2018/05/13/nyregion/marijuana-arrests-nyc-race.html

[8] Затраты на атаку программы-вымогателя в Атланте в марте 2018 года могут составить 17 миллионов долларов icmp=np_inform_variation-control»

[9] В качестве примера см. связь уличных датчиков Бостона https://www.boston.gov/innovation-and-technology/smart-streets

[10] Измерение риска ИИ: https://datasmart.ash.harvard.edu/news/article/potholes-rats-and-criminals

[11] https://www.wired.com/story/when-it-comes-to-gorillas-google-photos-remains-blind/

[12] https://www.aclu.org/blog/privacy-technology/pitfalls-artificial-intelligence-decisionmaking-highlighted-idaho-aclu-case