Публикации по теме 'temporal-difference'


Обучение с подкреплением, часть 5: Монте-Карло и обучение разнице во времени
Пошаговый подход к пониманию Q-обучения Предыдущие публикации в моей серии обучения с подкреплением: Краткое введение в RL Знакомство с марковским процессом Марковский процесс принятия решений (MDP) Поиск оптимальной политики с MDP Теперь, когда мы рассмотрели MDP, пришло время обсудить Q-обучение. Чтобы углубить наши знания по этой теме, нам необходимо поэтапно понять: динамическое программирование (DP): представленный в нашем обсуждении MDP. Обучение методом..

Методы временной разницы в обучении с подкреплением
Путешествие в обучение с подкреплением Обучение с временной разницей Оптимизация функций ценности путем начальной загрузки опыта. Добро пожаловать в следующую захватывающую главу моих исследований по обучению с подкреплением, в которой мы рассмотрим обучение с разницей во времени. Как всегда, я буду ссылаться на ресурсы, которые меня учили и направляли, внизу сообщения. В двух последних моих сообщениях мы говорили о методах динамического программирования (DP) и Монте-Карло..

Вопросы по теме 'temporal-difference'

сравнение временных последовательностей
Я пытаюсь обдумать эту задачу и задаюсь вопросом, есть ли стандартный способ сделать это или какие-то библиотеки, которые были бы полезны. Определенные события отслеживаются и синхронизируются в нескольких источниках данных S1 ... SN. Записанная...
157 просмотров

Реализация алгоритма TD-Gammon
Я пытаюсь реализовать алгоритм из статьи TD-Gammon Джеральда. Тезауро. Ядро алгоритма обучения описано в следующем абзаце: Я решил иметь один скрытый слой (если этого было достаточно, чтобы играть в нарды мирового класса в начале...
480 просмотров