Недавно было показано, что обучение с подкреплением масштабируется до чего-то действительно надежного с обучением по учебной программе.
Возникает естественный вопрос, нужно ли это.
Много лет назад было показано, что приближение к оптимальному агенту является практичным.
Однако он предполагает спецификацию функции вознаграждения, зависящую от задачи.
В частности, как и большинство ИИ, он плохо работает в ситуациях с низким вознаграждением.
Несколько лет назад средство избежать этого было предложено с помощью внутренних вознаграждений, генерируемых агентами.
Возникает естественный вопрос: можно ли эффективно совместить оптимальное приближение и вознаграждение, генерируемое агентом.
То есть, объединяя следующие два уравнения:
а затем упрощение и, возможно, введение дополнительных приближений из последних достижений.