Обучение с подкреплением станет «следующей большой вещью» в машинном обучении после 2022 года, поэтому давайте разберемся в том, как оно работает.

  • Агент: пытаюсь принять решение
  • Окружающая среда: все, что находится за пределами агента

Контролируемое, неконтролируемое обучение и обучение с подкреплением

Людям нравится классифицировать машинное обучение по этим трем категориям

  • Обучение с учителем: модель может обучаться с меткой того, что ожидается, чтобы предсказать метку на основе функций.
  • Неконтролируемое обучение: у модели нет метки для обучения, и ожидается, что она изучит некоторую структуру данных с помощью функций.
  • Обучение с подкреплением: у модели нет прямой метки для обучения, но она может взаимодействовать с «окружающей средой», совершая действия и наблюдения, и ожидается, что модель научится оптимально вести себя в окружающей среде, чтобы максимизировать некоторое вознаграждение.

Терминология

  • A_t: действие в момент времени t
  • R_t: вознаграждение в момент времени t

Функция вознаграждения

Функция ожидаемого вознаграждения в момент времени t с действием а является функцией действия в момент времени t.

Обратите внимание, что эта функция не предоставляется агенту в рамках обучения с подкреплением. Узнал о модели.

  • Это плохо, потому что агенту сложно принять решение о действии, не зная ожидаемой функции вознаграждения.
  • Это хорошо, потому что часто эту функцию сложно найти в любом случае, и мы можем позволить агенту изучить эту функцию из данных.

Предполагаемая функция вознаграждения в момент времени t обозначается как Q(a) в момент времени t.

С этой функцией должен работать агент, потому что он не знает q*. Цель состоит в том, чтобы Q() была максимально близка к q*().

Разведка и эксплуатация

Эксплуатация:

  • Выполнение наилучшего действия, которое максимизирует вознаграждение за один шаг, используя Q()
  • Это оптимальный ход, если осталось сделать только один ход (жадный)

Исследование:

  • Принятие всего, что не является лучшим действием
  • Помогите уточнить Q(), чтобы агент лучше понимал истинную функцию ожидаемого вознаграждения.
  • Лучший Q() означает высокую вероятность принятия наилучшего решения в будущем.
  • Это оптимально, когда осталось сделать много ходов, а агент имеет высокую неопределенность в отношении ожидаемого вознаграждения (может быть другое действие, которое может иметь более высокое вознаграждение).

Традиционно существует некоторый способ найти «лучшую» стратегию, чтобы сбалансировать разведку и эксплуатацию, сделав предположение об априорном знании и стационарности проблемы. Но в большинстве случаев это нецелесообразно, поэтому RL — это, по сути, способ более адаптивно сбалансировать эксплуатацию и исследование для достижения максимального общего вознаграждения в конце.

Методы действия-ценности

Методы оценки действия представляют собой набор методов для (1) оценки ценности действий и (2) принятия решения на основе оценок.

Приведенное выше выражение для Q просто означает, что просто возьмите выборочное среднее значение исторического вознаграждения за каждое действие а в качестве оценки того, каким должно быть ожидаемое вознаграждение за выполнение действия а. Когда t стремится к бесконечности, мы ожидаем, что Q сходится к q*.

Для заданного действия a, которое было выбрано n раз, у нас есть выборочное среднее вознаграждение как

Чтобы эффективно вычислять это при каждом выборе этого действия, мы можем использовать правило инкрементного обновления.

Эта форма очень часто используется, когда мы называем 1/n «размером шага» и позже делаем его настраиваемым параметром.

Жадное действие — это оптимальное а, которое максимизирует Q при заданном t.

Конечно, мы не можем просто вести себя жадно в то время. Одна простая стратегия состоит в том, чтобы большую часть времени действовать жадно, но исследовать другие действия с малой вероятностью эпсилон. В долгосрочной перспективе, поскольку Q очень хорошо аппроксимирует q*, агент будет вести себя оптимально с вероятностью 1 эпсилон времени.

Проблема многорукого бандита

Чтобы начать работу с простейшей постановкой задачи обучения с подкреплением, см. Задача многорукого бандита.

Нестационарная задача

Когда среднее значение каждого бандита может меняться со временем, агент необходимо адаптировать с помощью правила добавочного обновления.

где альфа находится между 0 и 1. Его также можно переписать, как показано ниже.

Это показывает, что Qn зависит от Q1 (он же Начальная ценность действия) и от предыдущих вознаграждений. Сумма этих весов равна 1. Это также называется экспоненциально-взвешенным средним по давности.

Ссылка: большая часть материала этого поста взята из книги Обучение с подкреплением.

Чтобы узнать больше о РЛ:

Первоначально опубликовано на https://datajello.com 15 июля 2022 г.