Обучение с подкреплением станет «следующей большой вещью» в машинном обучении после 2022 года, поэтому давайте разберемся в том, как оно работает.
- Агент: пытаюсь принять решение
- Окружающая среда: все, что находится за пределами агента
Контролируемое, неконтролируемое обучение и обучение с подкреплением
Людям нравится классифицировать машинное обучение по этим трем категориям
- Обучение с учителем: модель может обучаться с меткой того, что ожидается, чтобы предсказать метку на основе функций.
- Неконтролируемое обучение: у модели нет метки для обучения, и ожидается, что она изучит некоторую структуру данных с помощью функций.
- Обучение с подкреплением: у модели нет прямой метки для обучения, но она может взаимодействовать с «окружающей средой», совершая действия и наблюдения, и ожидается, что модель научится оптимально вести себя в окружающей среде, чтобы максимизировать некоторое вознаграждение.
Терминология
- A_t: действие в момент времени t
- R_t: вознаграждение в момент времени t
Функция вознаграждения
Функция ожидаемого вознаграждения в момент времени t с действием а является функцией действия в момент времени t.
Обратите внимание, что эта функция не предоставляется агенту в рамках обучения с подкреплением. Узнал о модели.
- Это плохо, потому что агенту сложно принять решение о действии, не зная ожидаемой функции вознаграждения.
- Это хорошо, потому что часто эту функцию сложно найти в любом случае, и мы можем позволить агенту изучить эту функцию из данных.
Предполагаемая функция вознаграждения в момент времени t обозначается как Q(a) в момент времени t.
С этой функцией должен работать агент, потому что он не знает q*. Цель состоит в том, чтобы Q() была максимально близка к q*().
Разведка и эксплуатация
Эксплуатация:
- Выполнение наилучшего действия, которое максимизирует вознаграждение за один шаг, используя Q()
- Это оптимальный ход, если осталось сделать только один ход (жадный)
Исследование:
- Принятие всего, что не является лучшим действием
- Помогите уточнить Q(), чтобы агент лучше понимал истинную функцию ожидаемого вознаграждения.
- Лучший Q() означает высокую вероятность принятия наилучшего решения в будущем.
- Это оптимально, когда осталось сделать много ходов, а агент имеет высокую неопределенность в отношении ожидаемого вознаграждения (может быть другое действие, которое может иметь более высокое вознаграждение).
Традиционно существует некоторый способ найти «лучшую» стратегию, чтобы сбалансировать разведку и эксплуатацию, сделав предположение об априорном знании и стационарности проблемы. Но в большинстве случаев это нецелесообразно, поэтому RL — это, по сути, способ более адаптивно сбалансировать эксплуатацию и исследование для достижения максимального общего вознаграждения в конце.
Методы действия-ценности
Методы оценки действия представляют собой набор методов для (1) оценки ценности действий и (2) принятия решения на основе оценок.
Приведенное выше выражение для Q просто означает, что просто возьмите выборочное среднее значение исторического вознаграждения за каждое действие а в качестве оценки того, каким должно быть ожидаемое вознаграждение за выполнение действия а. Когда t стремится к бесконечности, мы ожидаем, что Q сходится к q*.
Для заданного действия a, которое было выбрано n раз, у нас есть выборочное среднее вознаграждение как
Чтобы эффективно вычислять это при каждом выборе этого действия, мы можем использовать правило инкрементного обновления.
Эта форма очень часто используется, когда мы называем 1/n «размером шага» и позже делаем его настраиваемым параметром.
Жадное действие — это оптимальное а, которое максимизирует Q при заданном t.
Конечно, мы не можем просто вести себя жадно в то время. Одна простая стратегия состоит в том, чтобы большую часть времени действовать жадно, но исследовать другие действия с малой вероятностью эпсилон. В долгосрочной перспективе, поскольку Q очень хорошо аппроксимирует q*, агент будет вести себя оптимально с вероятностью 1 эпсилон времени.
Проблема многорукого бандита
Чтобы начать работу с простейшей постановкой задачи обучения с подкреплением, см. Задача многорукого бандита.
Нестационарная задача
Когда среднее значение каждого бандита может меняться со временем, агент необходимо адаптировать с помощью правила добавочного обновления.
где альфа находится между 0 и 1. Его также можно переписать, как показано ниже.
Это показывает, что Qn зависит от Q1 (он же Начальная ценность действия) и от предыдущих вознаграждений. Сумма этих весов равна 1. Это также называется экспоненциально-взвешенным средним по давности.
Ссылка: большая часть материала этого поста взята из книги Обучение с подкреплением.
Чтобы узнать больше о РЛ:
- Проблема многорукого бандита
- Конечные марковские процессы принятия решений (MDP)
- Решение MDP с помощью динамического программирования
- Планирование табличными методами в обучении с подкреплением
- Методы Монте-Карло в RL
- Обучение с разницей во времени
- Контроль временной разницы в обучении с подкреплением
- Приближенные функциональные методы в обучении с подкреплением
- Обучение с подкреплением: градиентные методы политики
Первоначально опубликовано на https://datajello.com 15 июля 2022 г.