Публикации по теме 'bellman-equation'
Обучение с подкреплением: часть 3: уравнение Беллмана
В предыдущем блоге мы узнали, как выбор действия сразу влияет как на немедленную награду, так и на следующее состояние.
Теперь задача агента состоит в том, чтобы методом проб и ошибок найти лучшую стратегию, чтобы получить максимальное вознаграждение.
Стратегия называется политикой, а наилучшая стратегия, приносящая максимальную отдачу, — оптимальная политика.
Политика определяет стратегию принятия решений агентом. Он сопоставляет состояния с действиями, указывая, какое действие..