Публикации по теме 'bellman-equation'


Обучение с подкреплением: часть 3: уравнение Беллмана
В предыдущем блоге мы узнали, как выбор действия сразу влияет как на немедленную награду, так и на следующее состояние. Теперь задача агента состоит в том, чтобы методом проб и ошибок найти лучшую стратегию, чтобы получить максимальное вознаграждение. Стратегия называется политикой, а наилучшая стратегия, приносящая максимальную отдачу, — оптимальная политика. Политика определяет стратегию принятия решений агентом. Он сопоставляет состояния с действиями, указывая, какое действие..