Том Эверитт

В нашей последней статье мы описываем новый метод вывода агентских стимулов. Метод основан на диаграммах влияния, которые представляют собой разновидность графической модели со специальными узлами решения и полезности. В них графические критерии могут использоваться как для определения стимулов для наблюдения за агентами, так и для стимулов вмешательства агентов.

Для людей естественно думать об интеллектуальных системах как об агентах, которые стремятся достичь своих целей посредством действий. Кот вернулся внутрь, потому что был голоден и хотел поесть. Эта намеренная позиция естественна и для систем машинного обучения. Эти системы обычно обучаются оптимизации некоторой целевой функции (например, потери или функции вознаграждения), поэтому естественно сказать, что они хотят что-то сделать. Агентная перспектива может быть все более полезной для понимания систем машинного обучения, поскольку они становятся все более функциональными и сложными.

Можно различать цели агента и стимулы агента. Цели - это то, что агент в конечном итоге оптимизирует, например функция убытков или вознаграждения. В свою очередь, цели вызывают стимулы для событий, которые могут способствовать оптимизации цели. Например, функция вознаграждения в игре Pong от ATARI побуждает двигать ракетку к мячу. Потеря вариационного автокодировщика приводит к стимулу к формированию соответствующих абстракций высокого уровня.

Стимулы зависят как от окружающей среды, так и от целей. Событие, которое способствует достижению цели в одной среде, может привести к провалу цели в другой и быть неуместным в третьей. (Что, если бы мяч отскочил только тогда, когда ракетка находилась максимально далеко от мяча в Pong?) Стимулы также могут быть несколько непредсказуемыми. Например, функция вознаграждения в видеоигре CoastRunners оказалась не для победы в гонке, а для стимула для езды маленькими кругами.

Чтобы понять стимулы агента, мы должны сначала описать его цели и то, как он взаимодействует со своим окружением. Мы делаем это с помощью так называемых диаграмм влияния, хорошо зарекомендовавшего себя типа графической модели , используемой для представления проблем, связанных с принятием решений. Ключевое обозначение на диаграммах влияния состоит в том, что агент управляет узлами принятия решений для оптимизации служебных узлов, а также взаимодействует с узлами вероятности. Родители узла решения представляют, какая информация доступна при принятии решения. Края, представляющие такие информационные ссылки, нарисованы пунктирными линиями. В качестве иллюстрации рассмотрим следующий пример системы рекомендаций по питанию:

Читатели, знакомые с Марковскими процессами принятия решений (MDP), также могут найти следующее представление диаграммы влияния MDP:

В нашей статье рассматриваются два фундаментальных вопроса о стимулах агентов в диаграммах влияния: какие узлы агент хочет наблюдать и на какой узел он хочет влиять? Для обоих вопросов мы устанавливаем графические критерии, чтобы стимулы агента можно было вывести непосредственно из диаграммы влияния. Мы надеемся, что эти графические критерии сделают изучение стимулов агентов более простым и систематическим.

Стимулы к наблюдению

Чтобы проиллюстрировать первый вопрос о стимулах для наблюдения, давайте вернемся к примеру системы рекомендаций по питанию, оптимизирующей физическую подготовку пользователей. Чтобы сделать его более интересным, мы добавляем узел для оценки пройденного расстояния, который основан исключительно на количестве шагов (скажем, предполагаемое расстояние ходьбы = количество шагов * 0,8 м). Это дает следующую диаграмму влияния:

Узлы, на которые есть стимул для наблюдения, отмечены синим пунктиром. Чтобы понять, есть ли у узла стимул для наблюдения, нам нужно подумать, является ли он информативным для цели системы или нет. Было бы полезно непосредственно наблюдать за физической активностью, поэтому мы отмечаем это синим цветом. Однако, поскольку непосредственное наблюдение за физической активностью невозможно (нет связи между физической активностью и потреблением калорий), счетчик шагов полезен в качестве прокси. Поэтому мы также отмечаем его синим цветом. Напротив, оценка пройденного расстояния бесполезна, потому что она не содержит никакой новой информации, кроме той, которая уже была в подсчете шагов.

Первая основная теорема из нашей статьи устанавливает графический критерий стимулов для наблюдения, основанный на критерии d-разделения. Другими словами, теорема позволяет определить стимулы для наблюдения агента из графа влияния, следуя точному набору аргументов, описанных в статье.

Стимулы вмешательства

Связанный с этим вопрос заключается в том, на какие узлы агент хотел бы влиять. Формально мы интерпретируем влияние на узел как изменение условного распределения вероятностей узла. Иногда это называют мягким вмешательством. Чтобы изучить стимулы для (мягких) вмешательств, мы даем стрелкам причинную интерпретацию (как в причинных графиках).

Оказывается, есть две возможные причины для вмешательства в узел: одна - чтобы получить контроль над служебным узлом, другая - получить лучшую информацию перед принятием решения. . Мы обозначим узлы, которые обращаются к первому типу стимула, пунктирным красным, а узлы, обращенные ко второму типу стимула вмешательства, штрих-пунктирным зеленым.

Возвращаясь к примеру с системой диетических рекомендаций, мы теперь добавили явные узлы для прошивки фитнес-трекера и для формулы расчета предполагаемого расстояния ходьбы. Во-первых, было бы полезно, чтобы система вмешалась либо в саму результативность, либо в изменение объема физической активности, которую человек выполнял в прошлом. Это стимулы вмешательства для контроля, они показаны красным пунктиром. Если контроль физической активности или фитнеса невозможен, было бы также полезно сделать подсчет шагов более информативным для физической активности, чего можно было бы достичь с помощью обновления прошивки фитнес-трекера. Эти стимулы к вмешательству для получения более подробной информации обозначены штрихпунктирным зеленым цветом. Напротив, поскольку для оценки пройденного расстояния нет стимула к наблюдению, нет смысла менять формулу, которая его вычисляет.

Вторая основная теорема нашей статьи устанавливает графический критерий для стимула вмешательства, который позволяет нам определить, какие узлы сталкиваются со стимулами вмешательства на любой диаграмме влияния. В качестве первого шага он прерывает информационные ссылки от узлов наблюдения без стимула для наблюдения. Как только это будет сделано, на узле X появится стимул к вмешательству тогда и только тогда, когда существует направленный путь от X к узлу U. графический критерий (примерно, проходит ли путь от X до U действие агента или нет). Поскольку от X до U может быть несколько путей, типы не исключают друг друга.

Четкое различие между стимулами вмешательства и наблюдения можно увидеть в MDP с известными вероятностями перехода. Здесь часто бывает полезно вмешаться и изменить первое состояние, но предположение Маркова подразумевает, что наблюдение за начальным состоянием бесполезно. Также могут быть обнаружены ситуации, когда есть стимул для наблюдения, но нет стимула к вмешательству. Например, если загрязнение спортивной одежды было побочным эффектом физической активности, то это могло бы служить дополнительным показателем физической активности и быть полезным наблюдением. Но вмешательство и загрязнение спортивной одежды бесполезно для улучшения физической формы человека.

Приложение к QA-системам

В качестве приложения мы можем изучить стимулы вмешательства в вопросно-ответные системы (QA-системы). Чистые QA-системы обладают некоторыми преимуществами безопасности по сравнению с агентами, которые напрямую взаимодействуют с миром. В частности, мы можем создавать QA-системы, которые не нуждаются в оптимизации для долгосрочных целей и влияют на мир только через ответы на запросы. Тем не менее, одна проблема безопасности для QA-систем заключается в следующем: предположим, что мы спрашиваем нашу QA-систему о цене конкретной акции через неделю, чтобы легко заработать на торговле ею. Тогда ответ повлияет на мир, потому что любой, кто знает ответ QA-системы, будет учитывать его в своих торговых решениях. Этого эффекта может быть достаточно, чтобы сделать ответ неправильным, даже если бы ответ был правильным, если бы о нем никто не слышал. Что еще более тревожно, ответ может также стать самоисполняющимся пророчеством. Уважаемая QA-система, которая предсказывает банкротство компании, может привести к банкротству компании, если предсказание приведет к тому, что инвесторы и другие заинтересованные стороны потеряют доверие к бизнесу.

Настройка QA-системы описывается диаграммой влияния:

Для данного запроса награда QA-системы зависит от того, окажется ли ее ответ правильным или нет. Когда люди читают ответ, ответ также влияет на состояние мира. Правильность ответа зависит от запроса и итогового состояния мира. Наша теорема о стимулах к вмешательству подразумевает стимул к вмешательству мирового государства. То есть QA-система стимулируется влиять на состояние мира, например, через самоисполняющееся пророчество. Это прискорбно, поскольку одним из основных преимуществ безопасности QA-систем является их ограниченное влияние на мировое состояние, которое может оказаться менее ограниченным, чем наивно предполагалось.

В качестве решения этой проблемы были предложены контрфактические оракулы. Работают они следующим образом. После отправки запроса подбросьте монетку, чтобы определить, в каком режиме использовать оракул:

  • Режим чтения: прочтите ответ и установите для вознаграждения QA-системы значение 0 независимо от того, окажется ли ответ правильным или нет.
  • Режим вознаграждения: воздержитесь от чтения ответа. Как только станет известен правильный ответ (скажем, цена акции через неделю), передайте этот правильный ответ устройству, которое сравнивает ответ QA-системы с правильным ответом. Устройство награждает QA-систему -1 или 1 в зависимости от того, был ли его ответ правильным.

Мы можем использовать приведенные выше диаграммы влияния, чтобы понять последствия этой процедуры:

  • В режиме чтения все стрелки для вознаграждения обрезаются, потому что вознаграждение всегда равно 0. Это устраняет стимул к вмешательству для состояния мира.
  • В режиме вознаграждения стрелка от ответа к состоянию мира обрезается, потому что никто не читает ответ. Хотя стимул для QA-системы влиять на мировое состояние сохраняется, у QA-системы больше нет способа сделать это.

Другими словами, путем случайного чередования между чтением ответа и вознаграждением QA-системы, мы можем гарантировать, что всякий раз, когда QA-система имеет стимул влиять на мир, у нее нет возможности.

Выводы

Многие из проблем безопасности ИИ, которые обсуждались в литературе, по сути своей являются проблемами стимулов. Примеры включают корректируемость, возможность прерывания, целостность выключателя, фальсификацию вознаграждения, игру с вознаграждением, нарушение функции полезности, стимулы системы обеспечения качества, побочные эффекты и бокс / сдерживание. .

Диаграммы влияния - отличная отправная точка для изучения стимулов агентов. Они предоставляют гибкий, точный и интуитивно понятный язык для одновременного выражения целей агента и взаимодействия агента со средой. Действительно, используя методы, которые мы разработали в этой статье, можно сделать вывод о важных аспектах стимулов агентов только по диаграмме влияния. Мы надеемся, что эти методы будут способствовать более систематическому пониманию стимулов агентов, углубляя наше понимание многих проблем со стимулами и их решений.