В этой серии статей я хочу представить и представить несколько передовых методов исследования для обучения с подкреплением. Компромисс между исследованием и эксплуатацией - один из центральных элементов обучения с подкреплением.

Агент, который взаимодействует с / в среде, получает вознаграждение в зависимости от того, насколько хорошо было его поведение или действия. Однако вскоре агент заметит, какие действия приводят к хорошему вознаграждению. Теперь основной вопрос заключается в следующем: продолжает ли агент теперь продолжать то же поведение и выполнять одни и те же действия, которые снова и снова приводят к известной награде?

Или он выполнит какие-то другие действия и немного дальше исследует окружающую среду. Зная, что за короткое время он может получить немного меньшее, нулевое или отрицательное вознаграждение. Но в долгосрочной перспективе исследует более прибыльное поведение, которое, как и раньше, приносит более высокие вознаграждения.

Как видите, это непростой вопрос. Даже нам, людям, приходится сталкиваться с этой проблемой в повседневной жизни и бороться с ней.

Однако это не единственная проблема, в которой исследование играет решающую роль в обучении с подкреплением.

Задачи с редкой плотностью вознаграждения представляют собой еще одну сложность для агента. Здесь также нужна хорошая стратегия разведки. Учиться, несмотря на скудную обратную связь о вознаграждении, и, наконец, найти низко представленное вознаграждение.

Как правило, редкие настройки вознаграждения определяют, что агент получает положительный отзыв только после того, как он решит задачу. На всех этапах до него он не получает обратной связи от окружающей среды.

Обычно, определяя задачу для агента, человек пытается создать мощный сигнал вознаграждения, чтобы убедиться, что агент усвоил желаемое поведение. Однако разработка обучаемых функций вознаграждения, которые приводят к целевому поведению, является сложной задачей и еще одной важной темой и областью исследований в области обучения с подкреплением.

Иногда функция вознаграждения заранее определена из-за проблемы или цели. Это огромное преимущество, потому что для создания функции вознаграждения требуется много специальных экспертных знаний и информации об окружающей среде. Однако даже с заранее заданной функцией вознаграждения или в редких настройках применяется формирование вознаграждения, чтобы облегчить обучение агента.

Чтобы преодолеть эту проблему, разработка стратегий разведки, которые могут справиться с редкими настройками вознаграждения, даст огромные преимущества. Определения проблем можно было бы значительно упростить, и никаких экспертных знаний не потребовалось бы, если бы вы давали обратную связь только тогда, когда задача решена, а агент самостоятельно вычисляет все другие взаимосвязи, связанные с конкретной задачей. Это было бы очень удобно.

Из-за всех этих причин и проблем исследовательские стратегии являются очень активной и интересной областью исследования обучения с подкреплением.

В следующих статьях я хочу представить и представить некоторые из этих идей для продвинутых стратегий исследования. Начиная с некоторых классических методов, таких как исследование на основе подсчета и верхняя уверенность, привязанные к более сложным и общим темам, таким как воспроизведение опыта задним числом, исследование новизны и любопытство с внутренними сигналами вознаграждения.

По каждой из этих тем я хочу предоставить практические примеры и реализации. Их можно увидеть на GitHub.

Под списком статей:
[Работа в процессе]

другие интересные и тематические методы

  • Максимальная энтропия
  • Перевернутое обучение с подкреплением

Если вы хотите получать уведомления о публикации новых статей в этой серии, вы можете подписаться на меня в Medium, GitHub или LinkedIn . Приятного чтения, а если вам интересно, посмотрите другие мои статьи об обучении с подкреплением.