Недавно OpenAI выпустила модель с возможностью генерировать изображения на основе текста под названием Dall-E. По мере того, как крупные модели ИИ, такие как Dall-E, становятся все более и более сложными, растет осознание необходимости понимания того, как минимизировать их потенциальное негативное воздействие. И эти потенциальные негативные последствия огромны — они включают предубеждения в отношении того, кто представлен в обучающих данных, предубеждения в отношении того, кто может извлечь выгоду из моделей, и предубеждения в том, кто формирует проблемы, для решения которых предназначены модели. Как мы можем использовать мощные возможности ИИ, одновременно сводя к минимуму его риски?

Многие этические проблемы, связанные с ИИ, не новы, но практические вопросы минимизации негативных последствий — новые. Социологи десятилетиями изучали, как людипринимают несправедливые решения и как эти решения формируют общество. Например, психологи продемонстрировали, как расовые предубеждения могут влиять на человека при принятии решения за долю секунды (например, полицейский на остановке; Eberhardt, 2019), а социологи изучали, как расовые предубеждения могут влиять на человека. структурные последствия (например, красная подкладка). Но системы ИИ — это не люди — это сложные артефакты, разработанные и используемые людьми, а это означает, что поиск способов минимизировать их негативное влияние представляет собой новый набор проблем.

Зарождающаяся область ответственного ИИ имеет два широких подхода к решению этих проблем. Первый носит технический характер, когда исследователи стремятся уменьшить вред с помощью инженерных решений, таких как дополнение данных обучения или устранение предубеждений в модели после обучения (детоксикация модели). Другой подход является более междисциплинарным, в нем решения предлагаются в рамках, где модели ИИ рассматриваются в их социальном контексте (социально-технический подход). Этот подход привел к стандартизированным методам оценки моделей (например, Ribeiro, et al., 2020), более совершенным методам документирования данных и моделей (например, Mitchell, et al., 2019) и повышенному вниманию к роли аннотаторов. в конвейере моделей ИИ (например, Denton, et al., 2021). Оба эти подхода внесли значительный вклад в область ответственного ИИ.

Однако я утверждаю, что существует острая необходимость в третьем подходе, который фокусируется на том, как модели ИИ взаимодействуют с человеческим познанием. Модели ИИ, люди и общество — все это часть экосистемы, в которой человеческое познание играет важную посредническую роль. Выбор того, на каких данных обучать модель, как получить эти данные, когда использовать модель и как интерпретировать ее выходные данные, — все это решения, неявно и явно принимаемые людьми. По сути, модели ИИ не оказывают негативного воздействия, если они каким-то образом не фильтруются через когнитивную систему человека. Хотя эта точка зрения подразумевается в социотехническом подходе, ее последствия обычно не рассматриваются напрямую. Здесь я намечаю три рекомендации для будущих исследований в области ответственного ИИ с точки зрения человеческого познания: (1) изучить, как люди делают выводы на основе моделей, (2) подумать о том, как люди учатся на языке,и(3) учитывать культурный контекст при сборе данных о поведении.

(1) Изучите, как люди делают выводы из моделей (и не забывайте об условии контроля!)

Один из способов, которым люди взаимодействуют с моделями ИИ, — это интерпретация их результатов. Рассмотрим модель, которая была обучена на тексте резюме для прогнозирования успешных кандидатов на работу. Менеджер по найму может использовать эту модель, чтобы определить, с кем проводить собеседование. Какую роль эта модель должна играть в процессе найма, чтобы нанимать квалифицированных людей «справедливым» образом?

Люди могут воспринимать модели ИИ как обладающие завесой объективности — как всезнающие роботы, способные выявлять лучших кандидатов, возможно, даже устраняя предубеждения, вносимые менеджером по найму. Как следствие, возникает импульс слепо использовать такие модели и рассматривать их результаты как Истину. Конечно, на самом деле в эти модели заложено бесчисленное множество допущений. Эти предположения исходят от создателя модели (какой результат следует прогнозировать? какие функции следует использовать? на каких данных следует обучать модель?) и нежелательных смещений в обучающих данных (какие функции коррелируют с переменной результата?) . Несоответствие между тем, как эти модели воспринимаются конечными пользователями, и неявными предположениями моделей может привести к непреднамеренному распространению предубеждений, когда они разворачиваются в реальных контекстах.

То, как люди интерпретируют результаты модели ИИ, является примером более общей проблемы, которая составляет основную область исследований в когнитивной психологии, а именно того, как люди делают выводы на основе ограниченных данных. Одним из выводов этой работы является то, что сила выводов, которые люди делают из новой информации, частично зависит от источника информации (Xu & Tenenbaum, 2007; Lewis & Frank, 2016). В частности, люди склонны делать более обоснованные выводы на основе ограниченных данных, когда эти данные поступают из хорошо осведомленного источника. В контексте ИИ это говорит о том, что, поскольку модели ИИ воспринимаются как хорошо осведомленные и беспристрастные, они могут побуждать людей делать неуместно сильные выводы из их результатов. Важная область будущих исследований сосредоточена на понимании простых теорий людей о моделях ИИ и о том, какие факторы их формируют. Применение теоретических выводов из когнитивной психологии может пролить свет на эти вопросы и, что особенно важно, на то, как мы можем разработать интерфейсы человека и ИИ, которые облегчат ответственное использование.

В дополнение к теоретическим выводам существуют также психологические методы, которые могут дать информацию о том, как люди интерпретируют выходные данные модели. Например, по мере того, как модели ИИ становятся все более похожими на человека по своим характеристикам, ряд этических вопросов зависит от того, может ли человек определить, было ли что-то создано моделью или человеком. Недавняя крупномасштабная языковая модель под названием GPT-3 способна генерировать новые новостные статьи, которые людям трудно отличить от новостных статей, написанных людьми. Как сложно? Чтобы ответить на этот вопрос, разработчики GPT-3 обратились к поведенческим данным. Они попросили людей прочитать новостные статьи, сгенерированные GPT-3, а затем сделать выводы о том, были ли они написаны машиной или человеком. Они обнаружили, что люди часто полагали, что статьи, написанные с помощью GPT-3, на самом деле были написаны человеком, и с большей вероятностью были обмануты, когда статьи были написаны более сложными версиями GPT-3 (см. рисунок ниже).

Эти выводы имеют потенциально тревожные последствия. Например, злоумышленник может использовать GPT-3 для создания большого количества новостных статей, распространяющих дезинформацию. Но чтобы определить, насколько нам следует беспокоиться об эффекте «GPT может обмануть вас», нам нужен способ количественной оценки его размера.

Оценка размера эффекта требует понятия контрольного условия из плана эксперимента. Эта идея восходит к Джону Стюарту Миллсу, который утверждал, что выявление причинно-следственной связи — что X вызвало Y — требует демонстрации того, что X одновременно является достаточным и необходимо произвести Y (Rosenthal & Rosnow, 2008). В целом достаточность демонстрируется условием обработки — в данном случае оценкой точности участников в определении источника новостных статей, созданных с помощью GPT. Необходимость, напротив, демонстрируется контрольным условием, при котором показано, что другие сценарии не приводят к определенному эффекту. Величину эффекта затем можно оценить как разницу между лечебным и контрольным состоянием. В случае эффекта ТШП может обмануть вас мы можем оценить его величину, сравнив точность исходных суждений в условиях, сгенерированных ТШП (лечение), с таковой в условиях, созданных человеком (контроль).

Критически важно то, что в статье не представлены данные для контрольных условий в классическом смысле плана эксперимента, и поэтому невозможно осмысленно оценить размер эффекта. То есть не существует оценки точности суждений об источниках для статей, созданных людьми.¹ Если люди бедны в этом состоянии, это предполагает, что не примечательно, что люди также бедны в случае статей, созданных GPT.

Величина эффекта «GPT может обмануть вас» не только академическая; это имеет важное практическое значение для беспокойства по поводу того, как эти модели могут быть использованы в гнусных целях. Если размер этого эффекта велик, то выяснение того, как смягчить его (значительные) потенциальные негативные последствия, должно быть в центре внимания политики ИИ. Более общий вывод состоит в том, что данные о поведении человека часто необходимы для понимания взаимосвязи между ИИ и человеческим мышлением, но сбор правильных данных о поведении, чтобы сделать выводы для приложений политики ИИ, требует знания основополагающих принципов Экспериментальная дизайн.

(2) Подумайте о том, как люди учатся на языке

Одна из основных проблем в области ответственного ИИ связана с тем фактом, что модели формируются на основе их обучающих данных. Между прочим, аналогичная проблема также является центральной в психологии развития: как человеческий разум формируется под воздействием его тренировочных данных, т. е. опыта. Эта идея берет свое начало в психологии от Джона Локка, который утверждал, что разум — это чистый лист, сформированный в результате обучения в окружающей среде. Динамика и ограничения этого обучения были в центре внимания обширных исследований в психологии (например, Rumelhart & McClelland, 1986; Tenenbaum, et al., 2011). Действительно, современные модели встраивания слов, такие как Word2Vec или GPT-3, уходят своими корнями в модель, разработанную учеными-когнитивистами, нацеленными на загадку психологии развития. Загадкой была проблема Платона — как дети могли иметь такие сложные представления о мире, несмотря на такой ограниченный опыт? Их решением стала формальная реализация идеи семантики распределения (LSA; Landauer & Dumais, 1997). По сути, идея заключалась в том, что модель — или человек — может узнавать значения других слов, отслеживая статистику совпадения слов в большом корпусе текста.

Однако человеческий разум — не просто полезная аналогия для ИИ. По мере того, как ИИ становится все более распространенным в реальных приложениях, становится все более важным думать о том, как люди учатся у ИИ. Есть много версий этой проблемы, но больше всего беспокоит то, как люди могут учиться на языке, созданном моделями ИИ.

Язык — это мощный способ, с помощью которого люди узнают о мире — большая часть того, что вы знаете о мире, исходит из языка, а не из непосредственного опыта. Если я скажу вам, что средняя температура на Плутоне составляет -387°F, вы, вероятно, только что узнали этот факт из языка. Таким образом, реальная проблема заключается в том, что люди могут узнать нежелательную информацию из языка, сгенерированного ИИ, например, вводящий в заблуждение политический контент.

Частичное решение этой проблемы носит технический характер: мы можем разработать методы для определения случаев, когда модели и сгенерированный моделью текст содержат ложную информацию. Проблема в том, что многие способы, которыми люди учатся с помощью языка, довольно тонкие, и современные технические решения для определения смысла в тексте не в состоянии их уловить.

То, как люди учатся на языке, снова является центральным вопросом в области психологии, и существует множество феноменов, когда люди выводят тонкие значения из утверждений. Вот несколько примеров.

Все эти явления хорошо изучены психологами и плохо подходят для вмешательства в модели ИИ с использованием современных технических решений. Поскольку генерация языка становится все более распространенной в нашей повседневной жизни, ответственному ИИ нужны психологические данные, чтобы понять, как ИИ может формировать то, что знают люди.

Это особенно важно из-за потенциального эффекта обратной связи между ИИ, познанием и обществом: текст, созданный ИИ, может формировать то, что люди изучают, что, в свою очередь, может формировать типы текстов, которые люди создают, которые затем используются для обучения будущих моделей. Эта динамика обратной связи может распространять социально нежелательную информацию, а также преувеличивать ее, что в конечном итоге увеличивает существующее социальное неравенство.

В своем собственном исследовании я изучал как канонически добродетельные (Lewis & Frank, 2016), так и неблаготворные случаи петель обратной связи в человеческом познании (Lewis & Lupyan, 2020; Lewis, Cooper Borkenhagen, Converse, Lupyan, & Seidenberg, 2021; Caliskan & Lewis, 2022; рисунок ниже). Я обнаружил, например, тесное соответствие между величиной гендерных предубеждений в языковых моделях и в человеческом познании. Эта работа наводит на мысль о причинно-следственных связях между моделями человеческого языка, познанием и обществом, но необходимо проделать дополнительную работу, чтобы лучше понять эту динамику.

(3) При сборе данных о поведении учитывайте культурный контекст.

Наконец, не только обучающие данные формируют поведение модели, но и метод сбора данных формирует обучающие данные. Одна из версий этой проблемы связана с аннотированными людьми данными обучения. Модели, которые обучаются на контролируемых задачах, требуют данных, которые каким-то образом были аннотированы людьми. Например, ImageNet (Deng et al., 2009) представляет собой массивный, широко используемый набор данных изображений, которые были помечены людьми для указания категории объектов на каждом изображении (например, «автомобиль», «банан» и т. д.). ). Этот набор данных стал ключом к прогрессу в исследованиях компьютерного зрения.

Люди, однако, не являются монолитом — они во многом отличаются, и эти способы влияют на поведение даже в самых простых задачах. Например, в случае маркировки изображений культурный фон может определять то, что считается человеком (Denton, et al., 2021). Эта изменчивость означает, что нам необходимо разработать наборы данных, аннотированные людьми из разных культур, чтобы модели отражали культурные контексты, в которых они используются. Проблема, конечно, в том, что сбор этих наборов данных нетривиален: машинное обучение наборы данных эффективны отчасти потому, что они массивны, а это означает, что для их разработки требуется огромное количество участников (текущая версия ImageNet включает метки для более чем 14 миллионов изображений). Отсутствие высококачественных крупномасштабных обучающих наборов данных для людей разного культурного происхождения является проблемой для ответственного ИИ.

Психологические исследования могут дать полезную информацию и здесь. Подраздел психологии, культурная психология, фокусируется на объяснении межкультурной изменчивости человеческого познания. Например, один вывод из этой работы заключается в том, что участники из Восточной Азии с большей вероятностью сосредоточатся на контексте или фоне изображений, тогда как американские участники с большей вероятностью сосредоточатся на объектах, находящихся на переднем плане (например, Masuda & Nisbett, 2001). Я также обнаружил множество систематических культурных различий в своих собственных исследованиях (Lewis & Lupyan, 2020; Lewis, et al., 2020; Lewis, et al., 2021). На рисунке ниже показаны данные из миллионов рисунков, описывающих кросс-культурную изменчивость способов представления понятий с помощью набросков (Lewis, et al, 2021). В другом проекте я исследовал модели встраивания слов, обученные на английском тексте, написанном не носителями языка, и обнаружил, что носители разных языков, как правило, имеют более схожие представления для более доступных для восприятия понятий (например, стол) по сравнению с носителями языка. те, которые менее доступны для восприятия (например, любовь; Lewis, et al., 2020).

Психологические открытия, подобные этим, могут быть использованы для разработки общей теории того, какие виды задач аннотирования и семантических областей могут различаться у разных людей. Например, аннотирование разжигающих ненависть высказываний и вынесение суждений о чувствах, вероятно, сильно зависят от разных культур, тогда как маркировка изображений, вероятно, относительно менее изменчива. Насколько более изменчиво? Какие особенности людей и задачи предопределяют эту изменчивость? С помощью такой теории исследователи ИИ могли бы оптимизировать способ сбора наборов данных аннотаций, выделяя больше ресурсов задачам и областям с высокой степенью межкультурной изменчивости и меньше ресурсов тем, у которых меньше межкультурная изменчивость.

Кроме того, часто сложно заставить участников делать то, что вы намеревались, в простой поведенческой задаче, например, комментировать изображения. Чрезвычайно тонкие аспекты задачи могут влиять на поведение людей, например порядок выполнения различных частей задачи или точная формулировка инструкций (например, Lewis & Frank, 2018). Эти тонкости часто считаются само собой разумеющимися в исследованиях машинного обучения, но по мере того, как человеческие данные, лежащие в основе моделей машинного обучения, становятся все более важными для качества модели, этим деталям необходимо уделять больше внимания (на самом деле, не внимание к этим деталям расточительно для человеческих ресурсов и сомнительно с этической точки зрения). Психологи в сотрудничестве с антропологами должны быть ресурсом для сбора надежных высококачественных данных о людях для обучения моделей ИИ.

Таким образом, ИИ взаимодействует с людьми на нескольких этапах экосистемы ИИ — от аннотаторов до разработчиков и конечных пользователей.² Понимание того, как люди думают, с использованием идей и методов из психологии, является критически важной, но упущенной перспективой в усилиях по ответственному развертыванию моделей ИИ. .

Благодарности. Спасибо Мартину Зеттерстену, Дэну Юровскому и Майку Франку за вдумчивые отзывы об этой публикации.

Сноски

[1] Обратите внимание, что авторы сообщили об условиях, которые они обозначают как «контроль», но это не контроль в классическом смысле дизайна эксперимента. Это условие является чем-то вроде «базового» состояния, при котором точность оценивается в наихудшем сценарии модели.

[2] В дополнение к связям, которые я здесь выделил, есть и более очевидные возможности для связи, такие как применение психологических этических теорий к вопросам этики ИИ (Awad et al., 2022).