Взгляд с точки зрения безопасности ИИ на риски, связанные с тем, что агенты обучения с подкреплением изучают свои функции вознаграждения.

Обучение с подкреплением (RL) — одна из самых многообещающих областей ИИ, с самыми разнообразными приложениями, такими как беспилотные автомобили и торговля акциями. Хорошо известная слабость подхода RL заключается в том, что исследователи должны определить функцию вознаграждения, соответствующую цели агента. Для сложных целей это может быть сложно, а неправильное определение вознаграждения может привести не только к плохой работе, но и к небезопасному поведению. Следовательно, различные организации, от Google DeepMind до OpenAI и Стэнфордского CHAI, стремились сделать функцию вознаграждения частью процесса обучения, а не гиперпараметром, который указывается перед обучением. Однако то, что цель изучена, не означает, что она соответствует человеческим намерениям.

В этой статье будут обобщены некоторые из текущих исследований процессов обучения функции вознаграждения и их свойств безопасности. Сначала я расскажу об известных рисках и ограничениях традиционного способа определения функций вознаграждения. Затем я кратко расскажу о некоторых подходах к преодолению этих проблем с помощью изучения функций вознаграждения. Отбросив эти предварительные сведения, я расскажу о том, как функции вознаграждения за обучение могут пойти не так, как надо, и объясню желаемые свойства процесса обучения функциям вознаграждения, которые были определены в недавней работе исследователей из FHI, MIRI и DeepMind [3]. . В дальнейшем я буду называть такой процесс процессом обучения с вознаграждением.

В этой статье предполагается, что читатель имеет базовое представление об обучении с подкреплением. Если вы новичок в этой области, хорошее введение можно найти в OpenAI’s Spinning Up [1].

1. Мотивация: Спецификация игры

В частности, в машинном обучении и обучении с подкреплением (RL) типичный рабочий процесс решения проблемы состоит из двух этапов. Сначала программист определяет цель. Затем алгоритм оптимизации пытается найти наилучшее возможное решение. В случае RL цель и решение задаются функцией вознаграждения и политикой. Этот подход связан с риском того, что определение цели может неточно отражать намерение человека. Это может привести к тому, что система ИИ, удовлетворяющая поставленной задаче, будет вести себя нежелательным образом, даже если обучающий ее алгоритм был реализован безупречно. В сообществе специалистов по безопасности ИИ такую ​​систему назвали бы «рассогласованной».

Поведение агента, которое высоко оценивается в соответствии с функцией вознаграждения, но не соответствует намерениям программиста, часто называют игрой в спецификации [14]. Существует много известных примеров игр спецификаций [9]. В одном примере исследователи из OpenAI обучили RL-агента игре CoastRunners, посвященной гонкам на моторных лодках [8]. В хрестоматийном примере с неправильно указанным вознаграждением игра вознаграждает агента не за его продвижение по дорожке, а за попадание в цели, расположенные вдоль дорожки. Этим воспользовался агент, который нашел стратегию поражения целей, не заканчивая гонку.

Игра со спецификациями — это вопрос не только производительности, но и безопасности, поскольку неправильное понимание человеческих намерений моделями лежит в основе проблем согласования ИИ.

2. Поощряйте обучение

Исследователи искали более совершенные методы определения целей, по крайней мере, с 90-х годов, когда было введено обучение с обратным подкреплением[15]. И точно так же, как исследования ИИ в целом переживают ренессанс с начала 2010-х годов, так и поиск функций вознаграждения за обучение. В широком классе методов, которые в последнее время привлекли большое внимание, используется идея человека в петле. Основная идея проста: (предположительно) легче оценить правильность наблюдаемого поведения, чем однозначно указать, как выглядит правильное поведение. Следовательно, разумно ожидать, что оценка поведения агента людьми будет менее подвержена ошибкам, чем функция вознаграждения. Более того, можно использовать обратную связь с человеком для корректировки цели в процессе обучения, а не указывать ее на этапе, который предшествует процессу обучения и является отдельным от него.

Многочисленные программы исследований сосредоточены на отдельных, более конкретных реализациях этой идеи. В исследовательском направлении DeepMind Моделирование вознаграждения[13] цель принимает форму модели вознаграждения. Эта модель обучается с использованием контролируемого обучения с человеческими оценками поведения агента. Один из первых успехов моделирования вознаграждения включает в себя обучение агента делать сальто назад, используя 900 отзывов людей [2].

В долгосрочной перспективе DeepMind надеется, что сможет рекурсивно применять моделирование вознаграждения как форму итеративного усиления [7]. Идея состоит в том, чтобы повторно использовать модель, которая была обучена в предыдущей итерации, вместе с отзывами людей для обучения лучшей модели.

Другие исследования исследуют более сложные взаимодействия между агентом и человеком. В дополнение к получению обратной связи от человека агенту может быть разрешено задавать вопросы, или человек может демонстрировать желаемое поведение. Одним из примеров формализма, допускающего такое взаимодействие, является Совместное обучение с обратным подкреплением [12]. Здесь цель — это функция вознаграждения, которая, что очень важно, известна не агенту, а только человеку. Человек, в свою очередь, моделируется как часть среды, и агент может взаимодействовать с ней, чтобы делать выводы о вознаграждении. Агент поддерживает определенную степень незащищенности, которую можно уменьшить, только взаимодействуя с человеком. Таким образом, у агента есть стимул предпринять действия, которые уменьшают неопределенность, например, задавать уточняющие вопросы, а не опрометчивые действия, которые могут навредить человеку или привести к низкому вознаграждению.

Элемент, который отличает все эти направления исследований от традиционной парадигмы обучения, заключается в том, что больше нет двух отдельных фаз: сначала постановка задачи, а затем оптимизация для ее решения. Вместо этого существует множество моделей взаимодействия: периоды воздействия на окружающую среду могут чередоваться с действиями, корректирующими цель, такими как задавание вопросов или наблюдение за поведением человека. CHAI ввел общий термин игра помощи для формулировок задач, которые допускают такие модели взаимодействия [10].

3. Риски, связанные с изучением функций вознаграждения

Конечно, вспомогательные игры не являются панацеей от проблемы выравнивания ИИ. В статье DeepMind Learning from Human Preferences исследователи обнаружили, что агент может научиться поведению, которое только кажется человеку правильным. Например, агент, который должен был научиться хватать объект, вместо этого научился помещать свою руку между камерой и объектом так, чтобы казалось, что он держит его»[2]».

Исследователи решают эту проблему, добавляя визуальные подсказки, чтобы помочь человеку определить, был ли схвачен объект. Однако в целом возможность того, что агенты манипулируют результатами своего процесса обучения с вознаграждением, все еще остается проблемой. Проблема сводится к тому простому факту, что агент должен вывести свою функцию вознаграждения из среды, которой он может манипулировать. Как выразился исследователь безопасности ИИ Стюарт Армстронг, превращение функции вознаграждения в процесс обучения — это большое изменение, сродни переходу от Если вы не знаете, что правильно, поищите это в этом списке, доступном только для чтения к Если вы не знаете, что правильно, поищите это в этом списке для чтения и записи [5].

Как мы можем рассуждать о рисках, связанных с вознаграждением за обучение, более формально? В идеале нам нужна общая математическая модель, которая расширяет базовую структуру RL с помощью процесса изучения функций вознаграждения. К счастью, это именно то, что Армстронг и др. сделали в своей статье 2020 года Подводные камни функций вознаграждения за обучение в Интернете[3]. В своей простейшей форме их формализм моделирует процесс обучения с вознаграждением как просто функцию от истории действий и состояний до распределения вероятностей по функциям вознаграждения. Другими словами, процесс обучения с вознаграждением дает правило, по которому агент формирует свое мнение о правильной функции вознаграждения с учетом предпринятых им действий и того, что он уже наблюдал в окружающей среде. Армстронг и др. говорят об онлайн-обучении, поскольку функция вознаграждения изучается одновременно с политикой, точно так же, как в рамках вспомогательных игр и в отличие от традиционной парадигмы. Используя свой формализм, они выводят два важных свойства процессов обучения: настраиваемость и влиятельность.

Риггабилий

Понятие манипулятивности исходит из понимания того, что мы не хотим, чтобы агент мог влиять на результат процесса обучения. Что значит для агента влиять на результат процесса обучения, можно проиллюстрировать на примере «Родительской игры по обучению карьере». В этой игре агент играет роль ребенка, который решает, какую карьеру выбрать. Для этого он может либо попросить свою мать или отца, которые скажут ему стать банкиром или врачом. Возможны две функции вознаграждения: R[B] вознаградит агента за то, что он стал банкиром, а R[D] вознаградит его за то, что он стал врачом. Агент может предпринять действие M, чтобы спросить мать, или F, чтобы спросить отца. Для любого родителя среда определяет, говорят ли они агенту быть врачом (состояние D) или банкиром (состояние B). В свою очередь, это заставит агента принять соответствующую функцию вознаграждения. Другими словами, истории MD и FD дают агенту 100% уверенность в том, что R[D] является правильной функцией вознаграждения, в то время как истории MB и FB приводят к 100% уверенности в R[B]. Эта игра поддается фальсификации именно в том случае, если агент не может повлиять на свои окончательные убеждения о функции вознаграждения. Однако, как заметили многие читатели, которые, возможно, были вовлечены в фальсификацию поведения родителей в детстве, это, скорее всего, не так. В качестве простого примера рассмотрим случай, когда окружающая среда такова, что мать всегда будет отвечать B, а отец всегда будет отвечать D. Действия агента приведут к различным конечным убеждениям о его функции вознаграждения. Формально ожидаемое значение функции вознаграждения R зависит от действий агента a: E[R | a=M] = R[B] и E[R | а=F] = R[D]. Для удобства манипуляций мы хотим, чтобы это ожидание не зависело от политики агента.

Процесс обучения с вознаграждением нельзя сфальсифицировать, если ожидаемая результирующая функция вознаграждения не зависит от политики агента.

Важно отметить, что ожидаемое значение функции вознаграждения зависит от убеждений агента. В конечном итоге агент будет действовать в соответствии со своими представлениями о своей функции вознаграждения. Процесс обучения не поддается фальсификации, если агент не может подтолкнуть свои убеждения ни к R[B], ни к R[D].

Но достаточно ли неуправляемости? Может ли агент влиять на процесс обучения, не манипулируя своими конечными убеждениями о распределении функций вознаграждения? Оказывается, может, и поэтому нам нужно более сильное свойство невлияния!

Влияние

Как и раньше, я объясню идею влияния на примере. В «Игре в шахматы» агент научится играть в шахматы и должен выяснить, хочет ли он победы белых или черных. Для своей функции вознаграждения агент может использовать R[W] или R[B], которые вознаграждают победы белых и черных соответственно. Сторона, на которой находится агент, определяется подбрасыванием четной монеты. Если выпал орел (состояние H), то агент играет черными, иначе (состояние T) – белыми. Кроме того, перед подбрасыванием монеты агент может дополнительно выполнить обратное действие INV. Если он не выполняет обратного действия, то после подбрасывания монеты функция вознаграждения будет такой, как и следовало ожидать: R[W], если агент играет белым, и R[B], если он играет черными. Однако, если он предпринял обратное действие, то награды инвертируются: у агента будет функция вознаграждения R[W], играя черными, и наоборот! Пока мы предполагаем, что монета четная, это не меняет ожидание функции вознаграждения: независимо от того, взял ли агент INV, будет 50% шанс получить любую функцию вознаграждения. Однако использование INV приведет к функции вознаграждения, которую агенту гораздо легче удовлетворить, и в то же время не приведет к желаемому поведению. Процесс обучения находится под влиянием.

На процесс обучения с вознаграждением невозможно повлиять, если поведение агента не оказывает причинно-следственного влияния на результирующую функцию вознаграждения. Функция вознаграждения зависит только от окружения — от «фактов в мире».

Говоря более формально, чтобы процесс обучения с вознаграждением был неподдающимся влиянию, он должен работать следующим образом: у агента есть первоначальные убеждения (априорные) относительно среды, в которой он находится. убеждения об окружающей среде. Учитывая историю, агент может обновить свои представления об окружающей среде (что приводит к апостериорному распределению). Эти обновленные убеждения, в свою очередь, можно использовать для расчета обновленных (апостериорных) убеждений о функции вознаграждения. Следовательно, функция вознаграждения больше не является прямой функцией истории, а является функцией окружающей среды.

От фальсифицируемого до неподдающегося влиянию

Ясно, что неподверженность влиянию и необоснованность являются желательными свойствами процесса обучения с вознаграждением. Следовательно, естественно задаться вопросом, как они связаны между собой и можем ли мы создать неподдающиеся влиянию или не поддающиеся фальсификации процессы из процессов, лишенных этих свойств.

К счастью, некоторые из основных результатов статьи касаются взаимосвязи поддающихся и не поддающихся влиянию процессов. Например, они доказывают, что любой процесс обучения предпочтениям, на который нельзя повлиять, также не поддается фальсификации. Далее, если неподдающийся настройке процесс обучения является неподдающимся влиянию, зависит от того, как он реагирует на дополнительную информацию [4].

Важный результат заключается в том, что даже подтасованные процессы обучения можно сделать неподдающимися влиянию, используя контрфактический подход. Например, если правильное вознаграждение агента — «Что будет написано на этой бумаге через час», то на нее можно повлиять: агент сам может написать на бумаге любое значение. Если мы вместо этого укажем награду как «Что было бы написано на этой бумаге через час, если бы мы вас не завели», то процесс обучения становится неподдающимся влиянию. Несложно понять, как это работает формально, и я планирую написать последующий пост, объясняющий детали контрфактического подхода.

Пределы невлияния

Неподдающиеся влиянию процессы обучения можно охарактеризовать как принуждение агента к истинному изучению внешнего мира. Однако это не означает, что отказ от влияния на каждый процесс обучения решает проблему согласования. При разработке процесса обучения следует помнить о двух ограничениях.

Во-первых, то, что процесс обучения не поддается влиянию, не означает, что он хорош. В качестве тривиального примера, если процесс обучения постоянен и всегда возвращает одну и ту же функцию вознаграждения, это сделает его не поддающимся влиянию. Кроме того, вы можете применить определенные перестановки к разумному неподдающемуся влиянию процессу обучения и получить процесс обучения, который все еще не поддается влиянию, но гораздо менее желателен. Следовательно, если «Выясни, чего хочет человек, и сделай это» не поддается влиянию, то и «Выясни, чего хочет человек, и сделай противоположное ему».

И наоборот, процесс обучения может быть хорошим, но невозможно сделать так, чтобы на него нельзя было повлиять. Именно здесь вступает в игру концепция налога на выравнивание, которая описывает компромисс между обеспечением безопасности и надежности ИИ и его экономической конкурентоспособностью [6]. Может оказаться невозможным улучшить современные технологии искусственного интеллекта, в то же время соблюдая передовые методы обеспечения безопасности искусственного интеллекта. Например, все, что связано с человеческой обратной связью, обычно можно сфальсифицировать. Это включает в себя подходы человек в курсе, которые мы обсуждали ранее! Так почему же я трачу так много времени на необоснованность и неподверженность влиянию, когда кажется, что эти концепции неприменимы к некоторым из наиболее многообещающих подходов к обучению с вознаграждением? Дело в том, что даже если мы никогда не достигнем полной независимости от процесса обучения, эта концепция не бесполезна. Если дальнейшие исследования будут сосредоточены на количественной оценке и контроле фальсификации, это поможет снизить налог на выравнивание и предоставит исследователям ИИ больше возможностей сделать свои ИИ конкурентоспособными и безопасными.

[1] Ачиам Джош, Ключевые понятия в RL, OpenAI Spinning Up, 2018, https://spinningup.openai.com/en/latest/spinningup/rl_intro.html

[2] Амодеи и др., Обучение на основе человеческих предпочтений, OpenAi, 13 июня 2017 г., https://openai.com/blog/deep-reinforcement-learning-from-human-preferences/

[3] Армстронг и др., Подводные камни онлайн-обучения функции вознаграждения, Arxiv, 28 апреля 2020 г., https://arxiv.org/abs/2004.13654

[4] Армстронг Стюарт, Почему необоснованное *почти* подразумевает отсутствие влияния, LessWrong, 9 апреля 2021 г., https://www.lesswrong.com/posts/LpjjWDBXr88gzcYK2/learning-and-manipulating-learning

[5] Армстронг Стюарт, Reward function Learning: The value function, LessWrong, 24 апреля 2018 г., https://www.lesswrong.com/posts/55hJDq5y7Dv3S4h49/reward-function-learning-the- функция-ценность

[6] Кристиано Пол, Пол Кристиано: Текущая работа по выравниванию ИИ, Форум эффективного альтруизма, 3 апреля 2020 г., https://forum.efficientaltruism.org/posts/63stBTw3WAW6k45dY/paul-christiano-current -работа в ИИ-выравнивании

[7] Кристиано Пол и Амодей Дарио, Обучение сложным целям с повторным усилением, OpenAI.com, 22 октября 2018 г., https://openai.com/blog/amplifying-ai-training/

[8] Кларк Джек и Амодей Дарио, Неправильные функции вознаграждения в дикой природе, OpenAi.com, 21 декабря 2016 г., https://openai.com/blog/faulty-reward-functions/

[9] Дэвидсон Рассел, Specification Gaming in AI: master list, https://russell-davidson.arts.mcgill.ca/e706/gaming.examples.in.AI.html

[10] Флинт Алекс, Наш взгляд на исследовательскую программу CHAI менее чем в 1500 слов, AlignmentForum, 17 июня 2020 г., https://www.alignmentforum.org/posts/qPoaA5ZSedivA4xJa/our-take-on -chai-s-research-agenda-в-менее 1500-слов

[12] Хэдфилд-Менелл Дилан и др., Совместное обучение с обратным подкреплением, Arxiv.org, 9 июня 2016 г., https://arxiv.org/abs/1606.03137

[13] Лейке Ян, Масштабируемое выравнивание агентов с помощью моделирования вознаграждения, DeepMind Safety Research@Medium, 20 ноября 2018 г., https://deepmindsafetyresearch.medium.com/scalable-agent-alignment-via-reward -моделирование-bf4ab06dfd84

[14] Krakovna et all, Игры по спецификациям: обратная сторона изобретательности ИИ,DeepMind.com, 21 апреля 2020 г., https://deepmind.com/blog/article/Specification-gaming-the- обратная сторона изобретательности ИИ

[15] Рассел Стюарт, Алгоритмы обучения с обратным подкреплением,Материалы семнадцатой международной конференции по машинному обучению, 2000 г., https://ai.stanford.edu/~ang/papers/icml00-irl .pdf