Публикации по теме 'markov-decision-process'


Глубокое обучение - обучение с подкреплением
Заинтересованы в понимании алгоритма, используемого AlphaGo для победы над чемпионом мира среди людей? Тогда эта статья для вас. Мы обсудим, что такое обучение с подкреплением (RL), элементы усиленного обучения, термины, относящиеся к RL, такие как функция ценности и функция значения Q. Что такое оптимальная политика? и как найти оптимальную политику? RL компромисс между эксплуатацией и разведкой. Когда мы дети, подростки или взрослые, когда нам нужно освоить новый навык,..

Обучение с подкреплением: от проб и ошибок к глубокому Q-обучению
Моя цель в этой статье — демистифицировать несколько основополагающих концепций обучения с подкреплением (RL) на практических примерах. Мы собираемся применить RL к печально известному испытанию «Стеклянный мост» из седьмого эпизода Squid Game сериала Netflix. Хотя никаких предварительных знаний в области RL не требуется, для следования содержанию этой статьи необходимы твердые навыки программирования на Python и базовое понимание машинного обучения. Код можно найти здесь ...

Углубленный обзор Soft Actor-Critic
Понимание современных алгоритмов обучения с подкреплением Вступление В этом посте мы рассматриваем Soft Actor-Critic (Haarnoja et al., 2018 и 2019), очень успешный алгоритм обучения с подкреплением, который обеспечивает высочайшую производительность в задачах непрерывного управления (таких как перемещение и манипуляции роботов). Soft Actor-Critic использует концепцию обучения с максимальной энтропией, которая дает некоторые концептуальные и практические преимущества, которые мы обсудим в..

Марковский процесс принятия решений  — «Введение в обучение с подкреплением… в пиццерии.
Марковский процесс принятия решений — введение в обучение с подкреплением… в пиццерии. Все любят пиццу, верно? Но как выбрать лучшую пиццу для себя? На чужое мнение можно положиться, конечно, но вкус субъективен — не всем нравится пицца с ананасами. На самом деле никто не любит пиццу с ананасами, но вы меня поняли. В этой статье мы продолжаем наше путешествие о том, как выбрать лучшую пиццу для вас (см. Часть 1 этой серии блогов). Однако на этот раз вы ленивы и просите доставку...

Объяснение марковского процесса принятия решений с помощью мемов
Демистификация марковского процесса принятия решений с помощью мемов Что такое МДП? Если мы перейдем к статьям Википедии для MDP, он определяется как: Стохастический процесс управления с дискретным временем, обеспечивающий математическую основу для моделирования принятия решений в ситуациях, когда результаты частично случайны и частично находятся под контролем лица, принимающего решения. Так что же это на самом деле означает? MDP предоставляет набор математических..

Моделирование с обучением с подкреплением
Концепции и варианты использования Обучение с подкреплением включает в себя выяснение что делать в какой ситуации. Это может быть сложно. Только малая часть всех возможных ситуаций могла возникнуть. Если это. Даже в знакомой ситуации проверенное действие может в конкретном случае дать неожиданный результат. Окружающая среда может бросить вызов. Действия имеют немедленные и отсроченные последствия, возможно, противоречивые. Некоторые отсроченные последствия могут быть неизвестны...

Обучение с подкреплением, не может быть проще, чем это.
Просто оглянитесь вокруг. Что ты видишь? Окружающая среда. Место с материальными вещами вокруг вас. Предположим, вы находитесь в комнате и читаете эту статью на своем ноутбуке, а я врываю в вашу среду, бегу к вам с ножом. Что вы будете делать? Бьюсь об заклад, вы попытаетесь защитить себя или бежать в ограниченных пределах комнаты. Это вы взаимодействуете с окружающей средой, стремясь получить награду (в данном случае пытаясь успешно защититься от меня) или получить наказание..