Генеративные агенты как инструменты исследования

Сначала прочтите это в моем Подстеке

В последние месяцы исследователи начали изучать, что степени магистра права могут рассказать нам о человеческом поведении. По их мнению, поскольку они обучены на большом объеме человеческих проявлений, эти модели должны быть способны воспроизводить то, как мы думаем и действуем. Например, рассмотрим следующее приглашение и ответ:

PROMPT: You're an elementary school teacher in a mid-sized American city. In bullet points, write out what you do on a typical day.

RESPONSE (EXCERPT): **Morning:**

- Arrive at school before students to prepare for the day ahead.

- Set up the classroom, including arranging desks, checking supplies, and organizing materials.

- Review the lesson plans and activities for the day.

- Make sure any special accommodations or individual student needs are accounted for.

- Greet students as they enter the classroom, helping create a positive and welcoming atmosphere.

Это разумное, хотя и общее, представление типичного поведения учителя в краткой форме. Вы можете представить себе дальнейшую тонкую настройку модели для генерации ответов по конкретному вопросу, для занятий на выходных, отношений и т. д.

И действительно, исследователи из Стэнфорда и Google сделали подобную версию несколько месяцев назад. В Генеративных агентах: интерактивные симулякры человеческого поведения исследователи предоставили 25 экземплярам ChatGPT различные подсказки, содержащие имя, подробный личный и профессиональный опыт, а также описание важных отношений. Затем они позволили экземплярам действовать как агенты в симуляции — описывать свои действия и взаимодействия, общаться друг с другом на естественном языке и в целом вести свои дела. Исследователи утверждают, что это упражнение позволило создать реалистичную копию коллективного человеческого поведения:

Генераторные агенты просыпаются, готовят завтрак и отправляются на работу; художники рисуют, а авторы пишут; они формируют мнения, замечают друг друга и начинают разговор; они вспоминают и размышляют о прошлых днях, планируя следующий день.

Это интригующая работа с несколькими непосредственными приложениями — авторы отмечают иммерсивные виртуальные среды как один из вариантов использования, отражающий текущую работу по генеративному ИИ в видеоиграх. Однако с точки зрения социальных наук эта работа также поднимает вопросы об *эпистемологии* результатов LLM. Другими словами, что мы узнаем, записывая представление модели о конкретном человеческом поведении? Могут ли такого рода упражнения обеспечить более глубокое понимание человеческого общения или социальных структур?

Моделирование другого типа уже давно стало ценным инструментом в социальных науках. Агентные модели позволяют исследователям быстро генерировать идеи, выявляя потенциальные явления для построения более глубокой теории. Именно такого подхода придерживалась наша работа над популярностью новостей на Reddit, сравнивая смоделированные гипотетические условия с набором эмпирических данных. Агентные модели также демонстрируют способы, с помощью которых простые наборы правил могут давать совокупные результаты, которые любят объяснять социологи. Модель сегрегации Шеллинга является прекрасным примером этого.

Таким образом, с одной стороны, идея использования смоделированных данных для изучения человеческого поведения не является чем-то новым. И в некотором смысле этот подход является просто более сложной версией тех же принципов. Простые взаимодействия весов, пытающихся предсказать текст, составляют основу модели, а их выходные данные более высокого уровня (и их взаимодействия) представляют собой наблюдаемую интересующую динамику.

Но генеративный подход также добавляет некоторые новые морщины. Дополнительная сложность приводит к потере интерпретируемости и прямой атрибуции. Уже не так просто (и даже невозможно) связать динамику высокого уровня с простым набором правил, потому что правила запутаны в больших, часто проприетарных системах. Сложнее, скажем, изолировать эффект изменения входных данных от соответствующего выходного сигнала с таким количеством уровней вывода между ними. Это также проблема, поскольку результат сильно зависит от модели. Вывод запроса ChatGPT может отличаться от вывода Bard (или Llama 2, или GPT 2…) по причинам, которые совершенно не прозрачны для исследователя. При таком большом количестве факторов генеративные агенты могут убедительно выполнять роль человекоподобного актера, но они привносят нежелательную сложность в агентно-ориентированную модель.

Таким образом, с точки зрения получения достоверных результатов исследований, LLM могут не работать как инструменты моделирования. Они имитируют некое широкое «среднее» человеческое поведение, выраженное через обучающие данные и архитектуру модели, что не является особенно поддающимся интерпретации процессом. Но все же есть места, где они могли бы вписаться в дизайн исследования.

Подобно традиционным моделям на основе агентов, генеративный агент может выступать в качестве прототипа исследования или доказательства концепции конструкции модели. Исследования являются дорогостоящими и отнимают много времени. А что, если бы вы могли провести пробное исследование, прежде чем приступать к сбору реальных данных? Если его тщательно подсказать, возможно, LLM сможет выступать в качестве своего рода минимально жизнеспособного участника исследования. Исследователи могли бы использовать эти смоделированные взаимодействия, чтобы обнаружить дыры в конструкции симуляции, найти неожиданные ответы на вопросы опроса или проверить теорию на небольшой выборке, похожей на человека. Фактические исследования по-прежнему проводятся в больших масштабах, с участием людей и интерпретируемых моделей. Но, пройдя начальный этап формирования идей и тестирования с помощью LLM, исследователи смогут лучше использовать свои ресурсы, быстрее оттачивая наиболее перспективные проекты.

Генеративные агенты как инструменты исследования

Вопросы по теме