Обучение с подкреплением: проблема бандитов K-Armed

Когда младенец учится ходить или исследовать окружающую среду и противостоять ее опасностям, у него нет учителя. Методом проб и ошибок он учится ходить, бегать и избегать огня.

Вычислительный подход к обучению на основе взаимодействий - вот что такое обучение с подкреплением. Это изучение того, что делать (и чего не делать) для достижения цели (максимизировать числовое вознаграждение). Агенту (обучающемуся) не говорят, какие действия следует предпринять, чтобы получить максимальную награду, но вместо этого он обнаруживает лучшие действия, пробуя их.

Что отличает обучение с подкреплением от других типов обучения, так это то, что оно не использует инструктирует, который дает учащемуся правильные действия, а скорее оценивает насколько хороши были его действия.

Многорукий бандит (проблема с K-вооруженным бандитом):

Многорукий бандит - это проблема, в которой вы постоянно сталкиваетесь с выбором из k различных вариантов или действий. После каждого выбора вы получаете числовое вознаграждение, выбранное из стационарного распределения вероятностей, которое зависит от выбранного вами действия. Ваша цель - максимизировать ожидаемую общую награду с течением времени.

Например, представьте, что вы игрок, который сталкивается с несколькими игровыми автоматами (однорукими бандитами), которые дают различное распределение вероятностей успеха. Задача здесь состоит в том, чтобы последовательно тянуть руки за руки, чтобы со временем получить максимальное вознаграждение, поэтому возникает вопрос: Какая стратегия является наилучшей для максимизации вашего вознаграждения (или прибыли)?

Ценность действия:

Ценность действия - это ожидаемая награда за его выполнение:

Обозначим действие, выбранное на временном шаге t, как At, а соответствующее вознаграждение - как Rt. Тогда значение произвольного действия a, обозначенное q * (a), является ожидаемой наградой при условии, что a выбрано.

Если бы мы знали значение каждого действия, то мы могли бы просто выбрать действие с наибольшим значением, но q * (a) неизвестно, поэтому мы оцениваем его:

Метод выборочного среднего.

Эта формула требует, чтобы мы сохраняли все предыдущие вознаграждения Ri, что требует больших вычислительных ресурсов. Но мы можем его переписать:

Эта реализация требует памяти только для Qn и n и только небольших вычислений для каждого нового вознаграждения. Общая форма приведенной выше формулы:

Разведка против эксплуатации:

Ранее мы говорили о лучшей стратегии, чтобы наш игрок максимизировал свою прибыль.

Использование. Одна из стратегий заключается в том, что мы продолжаем нажимать на рычаг, который принес нам наибольшую прибыль, и это называется жадным подход.

Исследование. Проблема с тем, чтобы продолжать нажимать на один и тот же рычаг, заключается в том, что мы можем упустить другие рычаги, которые приносят более высокую прибыль. И подход, основанный на изучении и использовании различных рычагов, называется нежадным.

Теперь мы стоим перед дилеммой: когда исследовать, а когда использовать?

Стенд с 10 руками:

Эпсилон-Жадный:

Предположим, что вместо того, чтобы всегда выбирать наиболее подходящий рычаг, мы время от времени дергаем рычаг случайным образом с малой вероятностью ε. Это называется ε-жадным методом. Например, если ε = 0,1,9 из 10 раз, мы тянем за текущий лучший рычаг, но в 10-й раз мы случайным образом выбираем рычаг, чтобы «исследовать».

На приведенном выше рисунке показано сравнение различных значений для эпсилон (ε = 0,01, ε = 0, ε = 0,1), взятых за 1000 шагов и усредненных за 2000 попыток.

Мы замечаем, что, исследуя (ε! = 0), мы в конечном итоге достигли более высокого среднего вознаграждения.

Оптимистичные начальные значения:

Значения начального действия также можно использовать как простой способ стимулировать исследование. Предположим, что вместо того, чтобы устанавливать начальные значения действий равными нулю, как мы это делали на 10-вооруженном стенде, мы устанавливаем их все на +5.

На предыдущем рисунке мы замечаем эффект оптимистичных начальных оценок ценности действий на 10-вооруженном испытательном стенде.

Надеюсь, вам понравилась эта статья о некоторых основных принципах обучения с подкреплением.

Ссылки:

Обучение с подкреплением, Ричард С. Саттон и Эндрю Дж. Барто

Основы обучения с подкреплением, Университет Альберты

Обучение с подкреплением: проблема бандитов K-Armed

Стенд с 10 руками:

Оптимистичные начальные значения:

Вопросы по теме