0-Принцип обучения с подкреплением

В этой серии статей мы представим формальные принципы и методы обучения с подкреплением, которые постараемся объяснить с помощью различных объяснений и примеров.

1) Объекты обучения с подкреплением:

Двумя объектами, которые взаимодействуют друг с другом в обучении с подкреплением, являются агент и среда. Учащимся и принимающим решения здесь является агент. Путем многочисленных взаимодействий с окружающей средой агент пытается изучить наилучшую стратегию (политику), которая позволит ему максимизировать совокупное вознаграждение в долгосрочной перспективе.

Границу между агентом и средой определить непросто даже в некоторых тривиальных ситуациях. Общее правило определения разделительной линии состоит в том, что все, что не может быть произвольно изменено агентом, считается находящимся вне агента и, следовательно, частью его окружения.

2) Сигналы взаимодействия в обучении с подкреплением:

Независимо от сложности взаимодействия между агентом и средой, мы всегда можем использовать структуру абстракции обучения с подкреплением, чтобы свести это взаимодействие к трем сигналам (Состояние, Действие и Награда).

Состояние: информация, полученная из среды, необходимая агенту для принятия следующего решения путем взаимодействия со средой. Эта информация описывает ситуацию среды с точки зрения агента (Выделенные признаки состояния среды, необходимые ему для принятия решения).

Действие: взаимодействие агента со средой с целью изменения текущего состояния среды.

Награда: внешний сигнал, сообщающий агенту, что правильно, а что нет, после того, как он действовал и изменил среду.

Начальная последовательность взаимодействия агента со средой идет по следующему ряду: сначала наблюдение за средой (состояние среды), на основе этой информации агент выполняет действие (изменение среды путем непосредственного взаимодействия), как В результате этого агент затем получает вознаграждение от внешнего механизма (принадлежит среде).

Эта последовательность взаимодействия длится до конечного состояния или процедуры остановки.

§ Пример:

Принцип обучения с подкреплением будет объяснен на основе взаимодействия между агентом и биореактором (как средой). Оперативной целью агента является оптимизация или увеличение производства полезного химического экстракта за счет изменения внешних воздействующих факторов. Поля действия или факторы, влияющие на биореактор, отмечены красным цветом. Зеленым цветом отмечены наиболее важные признаки, указывающие на состояние биореактора (интерпретируемое агентом).

После того, как агент подействовал на биореактор, изменив свои внешние воздействующие факторы на красный цвет, химическое состояние биореактора меняется (не то же самое, что состояние по принципу обучения с подкреплением). Через определенный промежуток времени биореактор достигает состояния равновесия (достигнутое состояние равновесия соответствует новому состоянию по принципу обучения с подкреплением). На этом этапе обратная связь или вознаграждение измеряются на основе полезного химического экстракта, взятого из зонда в биореакторе в этом состоянии.

Последовательности взаимодействия между агентом и биореактором (окружающей средой) показаны на следующих рисунках, начиная с последовательностей в (3.1) и заканчивая ими:

Интерпретация начального состояния биореактора (среды) агентом:

Действие, основанное на наблюдении и изученной на тот момент стратегии агента:

Переход состояния и получение вознаграждения:

Наблюдение за следующим состоянием:

Остальные последовательности:

3) Цель вознаграждения и возврата:

Формулировка гипотезы цели в RL следующая: Все, что мы подразумеваем под целями и задачами, можно рассматривать как максимизацию ожидаемого значения кумулятивной суммы полученного скалярного сигнала (называемого вознаграждением).

Формулировка вознаграждения играет решающую роль в успехе моделирования системы RL. Вознаграждения должны быть разработаны таким образом, чтобы при их максимизации агент достигал и наших целей.

Расчет кумулятивного вознаграждения для каждого состояния зависит от характера взаимодействия актора и среды, т. е. от того, являются ли взаимодействия конечными или бесконечными:

›› Эпизодические задания:

При эпизодическом подходе, когда взаимодействие между действующим лицом и средой естественным образом разбивается на подпоследовательности с конечными состояниями, кумулятивное вознаграждение определяется как сумма всех вознаграждений от рассматриваемого состояния до конечного состояния.

›› Непрерывные задачи:

С другой стороны, при непрерывном взаимодействии агента со средой без терминального состояния нормальная сумма вознаграждения стремится к бесконечности. Чтобы избежать этой проблемы, нам нужна интеграция дополнительного понятия «скидка».

Доказательство этого (пример: для всех вознаграждений, равных 1):

Два крайних случая ставки дисконтирования объясняются в следующей таблице:

4) Оценка состояний и стратегия действий:

Концепция «возврата» дает нам однопроходную оценку определенного состояния с точки зрения накопленных вознаграждений. Когда дело доходит до оценки того, насколько хорошо для агента находиться в определенном состоянии с точки зрения будущих вознаграждений, которые можно ожидать, или, если быть точным, с точки зрения ожидаемой отдачи, мы назвали эту концепцию функцией состояния-ценности в соответствии с политикой. .

Формально политика — это сопоставление состояний с вероятностями выбора каждого возможного действия:

§ Пример:

В этом разделе мы представим две формы политики (вероятностную и детерминированную политику), которые встречаются в обучении с подкреплением:

В вероятностной политике агент действует на основе действий и их распределения вероятностей, представленных функцией политики в этом состоянии (состояние здесь представлено в виде квадрата).

В случае детерминированной политики функция политики агента обеспечивает только одно действие с вероятностью 1 в каждом состоянии.

Функции значения действия немного отличаются от функции значения тем, что здесь мы вычисляем ожидаемый доход, начиная с состояния «s», выполняем действие «а», а затем следуем политике.

Функции значения действия и функции значения имеют решающее значение для оптимизации политики агента. Применяемые методы оценки этих функций в основном зависят от количества состояний, их действий и частоты, с которой эти состояния и их действия посещаются или выбираются.

Детали, стоящие за этими фактами, будут рассмотрены и объяснены в следующих главах.

Ссылка:

Обучение с подкреплением для киберфизических систем: с примерами кибербезопасности, Chong Li, Meikang Qiu
Обучение с подкреплением: введение, Ричард С. Саттон и Эндрю Дж. Барто.

0-Принцип обучения с подкреплением