Публикации по теме 'markov-decision-process'
2-динамическое программирование
2-динамическое программирование
В этой статье мы рассмотрим несколько возможных решений для MDP, чтобы получить наилучшую политику для торговли в марковской среде.
Общая итерация политики:
Общая итерация политики ( GPI ) — это общая структура решения в Reinforcement Learning, а не только для MDP. Стратегия решения чередуется между двумя методами расчета: « оценка политики » и « улучшение политики ». На этапе оценки политики функция значения для текущей политики оценивается..
Мой путь к обучению с подкреплением (часть 2) - Марковские процессы принятия решений
Добро пожаловать во вторую часть моего приключения по обучению с подкреплением, в котором я расскажу о своем столкновении с процессом принятия решений Маркова и уравнением Беллмана . Я включу ссылки на невероятные ресурсы, которыми я руководствовался, в конце этого поста. Вот часть 1 из этой серии.
MDP (Марковские процессы принятия решений) - это процесс принятия решений, который позволяет нам математически представить среду; большинство задач обучения с подкреплением можно..
Введение, MDP — Обучение с подкреплением #1
Введение в обучение с подкреплением
3 вида машинного обучения
Обучение под наблюдением (полу) Неконтролируемое обучение Обучение с подкреплением
1. Определение
Обучение с подкреплением — это один из видов машинного обучения, когда агент учится взаимодействовать с окружающей средой, чтобы максимизировать некоторое понятие кумулятивного вознаграждения.
2. Фоновая концепция
(a) Обучение под наблюдением: «учиться на примерах»
Вот несколько примеров хорошего или плохого,..
Мой путь к обучению с подкреплением (часть 3) - динамическое программирование
Добро пожаловать в другую главу моих поисков понимания обучения с подкреплением. Чтобы продолжить изучение части 2, мы рассмотрим концепцию динамического программирования . Как обычно, я добавлю ресурсы, по которым я руководствовался, внизу этого поста.
Часть 1 | "Часть 2"
Под динамическим программированием понимается набор алгоритмов, направленных на решение марковских процессов принятия решений . Они просматривают все возможные состояния и вычисляют оптимальные политики за..