ML Journal 10— RL — Лекция DeepMind (2/13)

2022/10/17

Сегодня я изучал RL, изучая лекцию DeepMind.

Исследование и эксплуатация

Агентам обучения необходимо найти компромисс между двумя вещами.

Эксплуатация — максимальное повышение производительности на основе текущих знаний.
Исследование — расширение знаний.

Многорукий бандит

Многорукий бандит представляет собой набор раздачи

A известен как набор действий или «рук».

Ra – это распределение вознаграждений за действие a.

Ценность действия для действия a — это ожидаемое вознаграждение.

Оптимальное значение – это максимальное ожидаемое вознаграждение. Что почти всегда неизвестно.

Сожаление о действии — это разница между максимальной ценностью, которую вы могли бы получить, и той, которую вы получили.

По определению, есть действие, о котором сожаление равно 0. Для любого другого действия сожаление положительно.

Цель состоит в том, чтобы свести к минимуму общее сожаление.

Это то же самое, что максимизировать совокупное вознаграждение.

Эта лекция охватывает эти алгоритмы

Жадный
Є(эпсилон) Жадный
UCB
Томпсон Сэмплинг
Градиенты политики

В первых трех используются оценки ценности действий.

I() — индикаторная функция: I(True) = 1 и I(False) = 0.

количество для действия a равно

Это также может быть обновлено постепенно

где

Алгоритм Грея

Самый простой алгоритм, который выполняет действие с наивысшим значением.

Эквивалентно

предполагая, что ничья невозможна, иначе вероятности не складываются в 1.

Пример

Допустим, есть два возможных действия, а и б. На временном шаге 1 мы выбираем a и получаем 0. На временных шагах 2–4 мы выбираем b и получаем 1, 0 и 0 соответственно. Значение действия на временном шаге 4 для a равно 0/1 = 0, а b равно 1/3 = 0,333…

Но вполне возможно, что фактически оптимальное действие может быть. Но жадный алгоритм выберет только действие b.

Полная эксплуатация и отсутствие разведки

Жадный алгоритм

С вероятностью 1 — Є выбрать жадное действие