Что сделали PPO, так это ограничили обновление политики в каждой итерации. В основных методах градиента политики целью является:

означает, что выполнение некоторых действий должно привести к большему количеству преимуществ (A), что означает более высокую отдачу.

соотношение, добавленное в PPO, просто говорит о том, насколько текущая политика отличается от последней итерации. Цель состоит в том, чтобы ограничить…