Публикации по теме 'markov-decision-process'


2-динамическое программирование
2-динамическое программирование В этой статье мы рассмотрим несколько возможных решений для MDP, чтобы получить наилучшую политику для торговли в марковской среде. Общая итерация политики: Общая итерация политики ( GPI ) — это общая структура решения в Reinforcement Learning, а не только для MDP. Стратегия решения чередуется между двумя методами расчета: « оценка политики » и « улучшение политики ». На этапе оценки политики функция значения для текущей политики оценивается..

Мой путь к обучению с подкреплением (часть 2) - Марковские процессы принятия решений
Добро пожаловать во вторую часть моего приключения по обучению с подкреплением, в котором я расскажу о своем столкновении с процессом принятия решений Маркова и уравнением Беллмана . Я включу ссылки на невероятные ресурсы, которыми я руководствовался, в конце этого поста. Вот часть 1 из этой серии. MDP (Марковские процессы принятия решений) - это процесс принятия решений, который позволяет нам математически представить среду; большинство задач обучения с подкреплением можно..

Введение, MDP — Обучение с подкреплением #1
Введение в обучение с подкреплением 3 вида машинного обучения Обучение под наблюдением (полу) Неконтролируемое обучение Обучение с подкреплением 1. Определение Обучение с подкреплением — это один из видов машинного обучения, когда агент учится взаимодействовать с окружающей средой, чтобы максимизировать некоторое понятие кумулятивного вознаграждения. 2. Фоновая концепция (a) Обучение под наблюдением: «учиться на примерах» Вот несколько примеров хорошего или плохого,..

Мой путь к обучению с подкреплением (часть 3) - динамическое программирование
Добро пожаловать в другую главу моих поисков понимания обучения с подкреплением. Чтобы продолжить изучение части 2, мы рассмотрим концепцию динамического программирования . Как обычно, я добавлю ресурсы, по которым я руководствовался, внизу этого поста. Часть 1 | "Часть 2" Под динамическим программированием понимается набор алгоритмов, направленных на решение марковских процессов принятия решений . Они просматривают все возможные состояния и вычисляют оптимальные политики за..