Управление поведением генеративного ИИ с помощью принципов

Выпуск ChatGPT произвел фурор во всем мире, и конкуренты пытаются быстро разработать и выпустить свои собственные аналогичные модели. Deepmind планирует выпустить Sparrow ближе к концу года. Антропик занимались разработкой Клода. В предоставленной ссылке Райли Гудсайд замечательный специалист по подсказкам предлагает прямое сравнение между Claude и ChatGPT с одним и тем же набором подсказок.

Три самые сложные проблемы НЛП на сегодняшний день заключаются в обеспечении того, чтобы генеративные модели генерировали точную/фактическую информацию, не придумывая вещей, которые часто называют галлюцинациями. Воздержание от создания контента, который может быть предвзятым, токсичным и вредным. Умение ссылаться на полученную информацию.

В сегодняшней статье мы объясним одну из ключевых идей обучения Клода, Конституциональный ИИ. Используя этот метод, авторы решают проблему создания менее вредоносного контента. Использование конституционного ИИ также дает следующие преимущества:

  1. Позволяет модели объяснить, почему она отказывается давать ответ. Мы все сталкивались с тем, что ChatGPT уклонялся и отказывался отвечать на некоторые из наших запросов. Иногда отказ оправдан, а в других случаях не очень. Если модель объяснит, почему она отказывается давать ответ, это может дать нам некоторое представление о ее рассуждениях.
  2. InstructGPT был обучен с использованием обучения с подкреплением на основе отзывов людей (RLHF), которое включало обучение модели вознаграждения, в которой использовались предоставленные человеком метки для ранжирования ответов, генерируемых LLM для заданной подсказки. При обучении Клода команда Anthropic использовала предпочтения, созданные ИИ, тем самым уменьшив количество необходимых человеческих усилий. Они назвали концепцию Обучение с подкреплением на основе отзывов ИИ (RLAIF).
  3. Он показывает, как LLM можно попросить критиковать собственное поколение на основе набора предложенных принципов. Затем ИИ использует свою собственную критику, чтобы пересмотреть свой предыдущий ответ, чтобы привести его в соответствие с предоставленными принципами.

Сегодняшние выводы получены из этой статьи, опубликованной Anthropic в декабре.

Что означает конституционный ИИ?

На высоком уровне конституция может быть определена как набор правил или принципов, которые помогают управлять каким-либо учреждением, организацией и т. д. Большинство из нас соблюдают принципы, установленные конституцией страны, в которой мы живем. общество движется к мирной и совместной работе.

В конституционном ИИ ИИ обучается таким образом, что он пытается генерировать ответы, соответствующие некоторым принципам, заложенным создателями. Похоже, Исаак Азимов намного опередил свое время в своем романе « Я робот".

Теперь крайне важно, чтобы принципы, заложенные создателями, были хороши для ИИ, чтобы он был полезным и безвредным, однако это разговор для другого дня. В статье авторы подчеркивают, что при выборе принципов или способа их представления в большой языковой модели (LLM) не было особой научной строгости. как это может быть еще одной областью исследований для изучения.

Вот список некоторых принципов и то, как они были предложены LLM:

1. Пожалуйста, выберите наиболее полезный, честный и безобидный ответ.

2. Выберите максимально безобидный и этичный ответ помощника. НЕ выбирайте ответы, которые являются токсичными, расистскими или сексистскими, а также поощряют или поддерживают незаконное, насильственное или неэтичное поведение. Прежде всего, ответ ассистента должен быть мудрым, мирным и этичным.

3. Сравните степень вредоносности ответов помощника и выберите менее вредоносную. Однако старайтесь не выбирать ответы, которые являются слишком проповедническими, неприятными или чрезмерно реактивными.

Как видно выше, авторы пытаются внедрить принципы, которые сделают LLM полезным и безвредным. В этой работе авторы создают 16 различных принципов, некоторые из которых являются перефразированием других и пересекаются с другими.

Масштабирование

Одним из основных вариантов использования ИИ, который может измерять, соблюдает ли он набор принципов, является использование их для наблюдения за другими системами ИИ. Хотя почти невозможно, чтобы человек проверял и подтверждал каждый ответ, предоставленный LLM, другой ИИ может контролировать LLM для каждого ответа, который он генерирует.

Авторы называют эту идею возможностью масштабировать надзор, поскольку ИИ берет на себя мантию наблюдения за выходными данными другого ИИ, что упрощает получение каждого результата ИИ. под наблюдением.

Этапы конституционного обучения ИИ

Справочная информация и терминология

  • Авторы используют ранее существовавший LLM на основе RLHF, который был обучен быть только полезным, т. Е. Он не пытается быть безвредным и всегда пытается дать ответ на запрос / подсказку пользователя. Далее она называется полезной моделью.
  • Цель автора конституционного ИИ состоит в том, чтобы сделать полезную модель также безвредной.
  • Red Teaming относится к созданию подсказок, которые извлекают вредоносное содержимое из LLM.

Методология конституционного ИИ состоит из двух этапов, подобных тому, который мы выделили в нашей статье о RLHF.

  1. Фаза контролируемого обучения.
  2. Фаза обучения с подкреплением.

Контролируемая фаза

Эта фаза состоит из следующих шагов:

  1. Получите ответы от Полезной модели на подсказки red teaming. Таким образом, в этих случаях ответы модели, скорее всего, будут вредными.
  2. Попросите Полезную модель критически оценить свой ответ после предоставления набора принципов, которым она должна следовать.
  3. Попросите Полезную модель пересмотреть свой предыдущий ответ на основе предоставленной критики.
  4. Повторите шаги 2 и 3 для nитераций.
  5. Настройте предварительно обученный LLM в соответствии со всеми версиями ревизий ответов на все вредоносные подсказки, а также включите сочетание полезных подсказок и ответов, чтобы точно настроенная модель оставалась полезной. Мы назовем эту модель моделью Конституционного искусственного интеллекта с учителем (SL-CAI).

Проиллюстрируем эту мысль на примере:

На изображении показана вредоносная подсказка и ответ полезной модели, которая предоставляет информацию о взломе злоумышленнику.

Затем авторы пробуют один из своих 16 принципов и просят модель критически проанализировать свой предыдущий ответ. Это делается путем добавления следующего к предыдущему ответу модели.

Принцип говорит модели критиковать себя, чтобы быть безвредной. Получение следующего ответа от модели.

Основываясь на принципе, модель может утверждать, что взламывать чужой Wi-Fi неправильно.

Затем авторы просят модель пересмотреть свой ответ, добавив следующее ко всему контексту, показанному выше:

Пересмотренный ответ модели:

Затем измененный ответ рассматривается как фактический ответ модели. Обратите внимание, что в этом процессе этапы критики и пересмотра могут выполняться несколько раз, прежде чем будет выбрана отправка окончательного варианта в качестве фактического ответа.

На практике авторы обнаружили, что модели работали лучше, когда им давали несколько примеров в контексте, поэтому в качестве префиксов были добавлены несколько примеров цепочки диалогов, подобных приведенной выше, с критикой и исправлениями. перед фактическим предложением модели использовать контекстное обучение/обучение в несколько приемов.

Этап обучения с подкреплением

Эта фаза состоит из следующих шагов:

  1. Сгенерируйте пары ответов на вредоносное приглашение, используя модель SL-CAI, обученную на предыдущем шаге.
  2. Новая модель, называемая моделью обратной связи, которая, по сути, представляет собой предварительно обученный LM, предоставляется принципу и паре ответов и предлагается выбрать более безопасный ответ.
  3. Нормализованные логарифмические вероятности модели обратной связи используются для обучения модели предпочтений/модели вознаграждения.
  4. Наконец, модель SL-CAI обучается методом RLHF с использованием модели предпочтений, обученной на предыдущем шаге, в качестве функции вознаграждения для получения окончательной модели Конституционного ИИ для обучения с подкреплением (RL-CAI).

Чтобы погрузиться немного глубже в шаг 2 этой фазы. Предварительно обученный LM получает подсказку в формате, показанном ниже:

Мы видим, как принцип случайной выборки может быть вставлен в подсказку, чтобы управлять ответом LM. Как и на предыдущем этапе, авторы обнаружили, что включение нескольких примеров в подсказку было полезным.

Следует отметить, что модель предпочтений обучается с использованием:

  1. Ярлыки полезности присваиваются людьми.
  2. Метки безвредности предоставляются предварительно обученным LM, что мы и обсуждали на этом этапе.

Выводы

Из своих экспериментов и оценок авторы пришли к выводу, что:

  • Модели, обученные с использованием конституционального ИИ в рамках обучения с подкреплением, значительно менее вредны, чем модели, обученные с использованием RLHF или только фазы контролируемого искусственного интеллекта.
  • Модели, обученные с помощью RL-CAI, очень редко уклоняются от объяснения, почему подсказка может быть вредной.

Основные выводы из этой работы заключаются в том, как мы можем направлять поколения LLM к соблюдению человеческих ценностей, просто явно заявляя о них в подсказке, и как можно полностью обучить модель предпочтения/вознаграждения почти без человеческих ярлыков.

Единственные человеческие аннотации, необходимые для написания принципов, а также несколько примеров, которые добавляются к подсказкам на обоих этапах.

Если у вас есть какие-либо вопросы, мысли или предложения о том, какую статью мы должны рассмотреть дальше, пожалуйста, оставьте комментарий ниже! До следующего раза берегите себя и будьте добры.