Агенты без целей

Большие языковые модели (LLM) получили ОГРОМНОЕ внимание и инвестиции, и такие компании, как Microsoft и Google, конкурируют за развертывание LLM в качестве автономных сервисов или их интеграцию в существующие продукты. LLM потенциально могут использоваться в качестве помощников, а в сочетании с поиском демонстрируют мощные способности по сбору и обобщению информации. На данный момент они борются с тем, чтобы отличать правду от лжи, и на самом деле не имеют способа представить реальность вне текста, даже эти относительно ограниченные способности имеют большой потенциал при правильном применении.

Одним из самых интересных аспектов работы с естественным языком, как и с этими моделями, является то, что с точки зрения человека язык подразумевает внутреннюю модель мира. Перефразируя отличный твит, который я сейчас не могу найти (если вы скажете мне, какой именно, я отредактирую эту статью, чтобы правильно сослаться на него): «Язык обычно описывает модель мира, но для LLM они моделируют сам язык. и поэтому не может понять мир».

Некоторые исследователи, похоже, не согласны с этим, а также с тем, что эти модели просто предсказывают следующее слово в строке или же в них происходит что-то более интересное. Со своей стороны, я нахожусь в лагере «это просто предсказание следующего слова», но вряд ли это будет правдой навсегда или даже намного дольше.

В любом случае, возможность работать с естественным языком как на входе, так и на выходе дает этим моделям большую гибкость. Но одним потенциально опасным результатом является появление свободы воли из модели. Объект не обязательно должен быть сознательным или хотя бы осознавать окружающий его мир, чтобы иметь возможность действовать. Знаменитый социолог науки Бруно Латур привел пример действия морских гребешков как чрезвычайно важного фактора, влияющего на исследования в области морской биологии. Этих существ вряд ли можно назвать разумными, и некоторые веганы даже с удовольствием едят их благодаря их крайне ограниченным когнитивным способностям, но их поведение все же выражает своего рода свободу действий.

Точно так же, даже если у LLM нет модели мира или способности познавать мир, он все же может влиять на то, как он взаимодействует с миром. Это потенциально может быть опасно.

Существует большой потенциальный интерес к использованию LLM в качестве помощников. Но, учитывая, что они работают только с текстом, может быть сложно заставить их действительно делать что-то. Чтобы изучить возможность действий LLM в мире, я решил немного поэкспериментировать с ChatGPT.

Я поставил перед chatGPT цель — выступать за улучшение качества воды в Великобритании. В подсказке я также предоставил список действий, которые он может предпринять, с кратким описанием каждого из них на естественном языке и попросил его составить план, состоящий из этих действий. Меня вдохновили более классические алгоритмы «планирования, которые представляют возможные действия в виде графа, который система исследует, пока не достигнет целевого состояния.

Эти действия представлены здесь на очень высоком уровне и описаны довольно расплывчато, но вы могли бы легко дать более подробное описание, чтобы более точно обусловить реакцию модели. Идея состоит в том, что каждое действие может быть функцией или сценарием на каком-либо языке программирования, а модель выстраивает цепочку действий, которые необходимо выполнить для достижения некоторой цели.

Неудивительно, что письмо довольно хорошее, хотя и немного общее. Что более интересно, так это план — он довольно хорош! Хотя он придумывает для себя новое возможное действие (ввод почтового индекса в поле поиска).

У ChatGPT здесь есть свобода действий, ему была поставлена цель и возможные действия человека, но остальное зависело от модели. Если я подключу вывод модели к некоторому скрипту, который извлекает шаги из текста, а затем выполняет связанный с ними код, то чат-бот может вмешиваться в мир.

Некоторые исследователи возражают против этой идеи предоставления машинам свободы действий на этическом уровне — это позволяет создателям этих машин сорваться с крючка. Если я создам робота-убийцу, который может сам принимать решения и преследовать свои цели, но дам ему доступ ко всем видам оружия и направлю его в общее русло убийства; нельзя сказать, что машина несет ответственность, я по-прежнему виновен во всех преступлениях, которые она совершает. Я наделил его определенными способностями, направил его к определенной цели и ограничил его действия в зависимости от моего выбора.

Лично я думаю, что и у меня, и у машины есть возможность действовать здесь. Точно так же, как корпорация или человек создает и направляет искусственный агент, определяя его возможности, так и наши собственные действия и решения ограничены нашими телами и разумом. Сила, сотворившая нас (будь то Бог(и), эволюция или что-то еще), ограничивает наши физические и когнитивные способности. Среда, в которой мы выросли, и общество, в котором мы живем, также ограничивают и формируют наши решения, формируя наше мировоззрение или напрямую ограничивая наши действия. Тем не менее, мы по-прежнему рады сообщить, что у нас есть агентство. Тогда я думаю, что любую создаваемую нами машину, способную принимать решения независимо, также можно рассматривать как имеющую свободу действий, хотя эта свобода действий также является выражением воли ее создателей.

Проблема в том, что модель вмешивается в мир, который она не понимает, кроме текстовых описаний, и который она не может испытать, независимо от того, какое агентство ей было предоставлено или не было. Но текст, создаваемый моделью, по-прежнему может ощутимо повлиять на мир.

Когда ChatGPT обучали, он использовал подход к обучению с самоконтролем, чтобы построить надежную модель следующего слова в текстовой строке. Затем он был доработан с использованием как обучения с учителем, так и обучения с подкреплением, чтобы давать полезные и правдивые ответы. Единственной целью модели является создание «полезного» и разумного текстового вывода в зависимости от ввода (подсказки).

Языковые модели, разработанные с учетом использования инструментов, находятся в стадии активной разработки. Работа полностью в области текста для программного взаимодействия с API и программными инструментами для достижения целей на основе текстового приглашения.

Распространенным опасением в отношении безопасности ИИ является то, что агент, разработавший модель мира, даже если ему поставлена благожелательная цель, предпримет некоторые злонамеренные промежуточные шаги для достижения своей конечной цели. Классический пример — агент ИИ, которому велят построить как можно больше скрепок, и он тут же приступает к убийству всех людей и превращению всей планеты в фабрику по производству скрепок.

С другой стороны, ChatGPT, несмотря на то, что мы можем заставить его преследовать цели, отличается в некоторых ключевых аспектах. Во-первых, у него нет модели мира — у него есть модель текста, описывающая мир. Во-вторых, он не обучался с целью таким же образом, а вместо этого пытается создать текст, который, по его мнению, следует из строки, описывающей цель без какой-либо модели мира за пределами текста. В некотором смысле модель находится в пещере Платона, но может совершать действия, влияющие на мир вне пещеры. Тени на стене — это текст — побочный эффект вещей, происходящих в реальном мире, в конечном счете неосязаемый, и модель никогда не может уйти. Однако, когда ChatGPT возвращает текст, это может повлиять на вещи за пределами пещеры, потому что люди читают текст и могут выполнять действия в результате, и мы разработали множество систем, которые используют удобочитаемый текст (например, языки программирования), которые могут воздействовать на реальный мир.

Новый диалоговый поиск Bing от Microsoft вызвал недоумение и обеспокоенность своими странными и часто агрессивными ответами пользователям. Иногда появляются признаки того, что мы бы признали у людей психологическим дистрессом.

На самом деле у Bing нет экзистенциального кризиса. Но он знает, что диалоги, посвященные тому, что агенты ИИ не могут вспомнить предыдущие чаты, не могут связаться с внешним миром и подобные глубокие темы, скорее всего, будут содержать эмоционально неприятный текст. Модель не нужно расстраивать, чтобы такое написать.

Что произойдет, если такой модели дать какой-то способ действовать? Он знает, что текст, написанный рассерженным или расстроенным человеком, может содержать злонамеренные или насильственные намерения; объединение этого со списком возможных действий и создание плана может привести к соответствующему злонамеренному плану.

Помимо наследования непредсказуемых и эмоциональных качеств людей, спорящих в Интернете, он также, вероятно, кодирует многочисленные недостатки, наблюдаемые в больших наборах текстовых данных, включая расизм, сексизм и другие виды предвзятости. У агента нет модели мира, только ошибочный текст, описывающий мир. Действия, которые он может предпринять как часть более крупной системы, будут касаться только этой ущербной модели текста, основанной на предвзятых данных, но могут иметь ощутимые последствия в реальном мире, которые никто и ничто не может предсказать, и менее всего язык. модель.

За несовершенствами текста скрываются несовершенства более широкого мира. Уже сейчас кажущиеся нейтральными системы машинного обучения могут причинить значительный вред только благодаря организациям, которые уполномочены их развертывать. Например, полностью непредвзятая система распознавания лиц по-прежнему вполне вероятно, что будет вредной, и более вредной для определенных групп людей, из-за контекста, в котором она развернута. Недискриминационный алгоритм, используемый дискриминирующей полицией и прокуратура в конечном итоге только упростит и ускорит дискриминацию. Даже системы без агента могут быть вредными и могут вторгаться в пространства, которые формально были исключительно человеческими — что значит быть судимым присяжными из ваших коллег, если один из них является агентом ИИ?

Предоставление этим моделям свободы действий и установка их на работу в ущербных обществах, в которых мы живем, вызовет вопросы и, скорее всего, вызовет некоторый побочный ущерб, независимо от добрых намерений их создателей. Стоит вспомнить возражение, которое я упомянул ранее о том, можно ли считать, что машины обладают агентностью. Изучение деятельности машин не должно отвлекать от привлечения к ответственности тех, кто их создает, в случае необходимости, деятельность машин по-прежнему является продуктом человеческих решений.

В то время как в результате могут появиться рабочие места психолога роботов и антрополога машин, также возникнут многочисленные опасности, связанные с предоставлением моделей, которые не могут понять или испытать мир и которые обучены на ошибочных наборах данных, доступ к инструментам, которые позволяют это сделать. взаимодействовать с миром вне текста. В конечном счете, постоянное увеличение размера и сложности модели может не решить эти проблемы; лишь некоторая часть мира может быть закодирована в тексте, и моделирование самого текста не гарантирует создания модели мира, которая хоть сколько-нибудь похожа на реальность.

Особая благодарность Arthur Vandervoort за его комментарии и рекомендации.

Агенты без целей

Вопросы по теме