Уменьшение масштаба надежного обучения с подкреплением

Недавно было показано, что обучение с подкреплением масштабируется до чего-то действительно надежного с обучением по учебной программе.

Возникает естественный вопрос, нужно ли это.

Много лет назад было показано, что приближение к оптимальному агенту является практичным.

Однако он предполагает спецификацию функции вознаграждения, зависящую от задачи.

В частности, как и большинство ИИ, он плохо работает в ситуациях с низким вознаграждением.

Несколько лет назад средство избежать этого было предложено с помощью внутренних вознаграждений, генерируемых агентами.

Возникает естественный вопрос: можно ли эффективно совместить оптимальное приближение и вознаграждение, генерируемое агентом.

То есть, объединяя следующие два уравнения:

а затем упрощение и, возможно, введение дополнительных приближений из последних достижений.