Публикации по теме 'a-journey-into-r-l'


Методы временной разницы в обучении с подкреплением
Путешествие в обучение с подкреплением Обучение с временной разницей Оптимизация функций ценности путем начальной загрузки опыта. Добро пожаловать в следующую захватывающую главу моих исследований по обучению с подкреплением, в которой мы рассмотрим обучение с разницей во времени. Как всегда, я буду ссылаться на ресурсы, которые меня учили и направляли, внизу сообщения. В двух последних моих сообщениях мы говорили о методах динамического программирования (DP) и Монте-Карло..