Публикации по теме 'markov-decision-process'
Глубокое обучение - обучение с подкреплением
Заинтересованы в понимании алгоритма, используемого AlphaGo для победы над чемпионом мира среди людей? Тогда эта статья для вас.
Мы обсудим, что такое обучение с подкреплением (RL), элементы усиленного обучения, термины, относящиеся к RL, такие как функция ценности и функция значения Q. Что такое оптимальная политика? и как найти оптимальную политику? RL компромисс между эксплуатацией и разведкой.
Когда мы дети, подростки или взрослые, когда нам нужно освоить новый навык,..
Обучение с подкреплением: от проб и ошибок к глубокому Q-обучению
Моя цель в этой статье — демистифицировать несколько основополагающих концепций обучения с подкреплением (RL) на практических примерах.
Мы собираемся применить RL к печально известному испытанию «Стеклянный мост» из седьмого эпизода Squid Game сериала Netflix.
Хотя никаких предварительных знаний в области RL не требуется, для следования содержанию этой статьи необходимы твердые навыки программирования на Python и базовое понимание машинного обучения.
Код можно найти здесь ...
Углубленный обзор Soft Actor-Critic
Понимание современных алгоритмов обучения с подкреплением
Вступление
В этом посте мы рассматриваем Soft Actor-Critic (Haarnoja et al., 2018 и 2019), очень успешный алгоритм обучения с подкреплением, который обеспечивает высочайшую производительность в задачах непрерывного управления (таких как перемещение и манипуляции роботов). Soft Actor-Critic использует концепцию обучения с максимальной энтропией, которая дает некоторые концептуальные и практические преимущества, которые мы обсудим в..
Марковский процесс принятия решений — «Введение в обучение с подкреплением… в пиццерии.
Марковский процесс принятия решений — введение в обучение с подкреплением… в пиццерии.
Все любят пиццу, верно? Но как выбрать лучшую пиццу для себя? На чужое мнение можно положиться, конечно, но вкус субъективен — не всем нравится пицца с ананасами. На самом деле никто не любит пиццу с ананасами, но вы меня поняли.
В этой статье мы продолжаем наше путешествие о том, как выбрать лучшую пиццу для вас (см. Часть 1 этой серии блогов). Однако на этот раз вы ленивы и просите доставку...
Объяснение марковского процесса принятия решений с помощью мемов
Демистификация марковского процесса принятия решений с помощью мемов
Что такое МДП?
Если мы перейдем к статьям Википедии для MDP, он определяется как:
Стохастический процесс управления с дискретным временем, обеспечивающий математическую основу для моделирования принятия решений в ситуациях, когда результаты частично случайны и частично находятся под контролем лица, принимающего решения.
Так что же это на самом деле означает?
MDP предоставляет набор математических..
Моделирование с обучением с подкреплением
Концепции и варианты использования
Обучение с подкреплением включает в себя выяснение что делать в какой ситуации. Это может быть сложно. Только малая часть всех возможных ситуаций могла возникнуть. Если это. Даже в знакомой ситуации проверенное действие может в конкретном случае дать неожиданный результат. Окружающая среда может бросить вызов.
Действия имеют немедленные и отсроченные последствия, возможно, противоречивые. Некоторые отсроченные последствия могут быть неизвестны...
Обучение с подкреплением, не может быть проще, чем это.
Просто оглянитесь вокруг. Что ты видишь?
Окружающая среда. Место с материальными вещами вокруг вас. Предположим, вы находитесь в комнате и читаете эту статью на своем ноутбуке, а я врываю в вашу среду, бегу к вам с ножом. Что вы будете делать?
Бьюсь об заклад, вы попытаетесь защитить себя или бежать в ограниченных пределах комнаты. Это вы взаимодействуете с окружающей средой, стремясь получить награду (в данном случае пытаясь успешно защититься от меня) или получить наказание..