Введение в обучение с подкреплением

Идеи, лежащие в основе современного обучения с подкреплением, основаны на теориях обучения методом проб и ошибок и вычислительного адаптивного управления. Общая цель этих подходов - создать агента, который максимизирует вознаграждение за определенное поведение, поскольку он взаимодействует со случайной средой в цикле обратной связи. Агент обновляет свою политику или стратегию для принятия решений перед лицом неопределенности в ответах, которые агент получает от Окружающей среды.

Поиск методом проб и ошибок - это подход к изучению поведения из области психологии животных. Торндайк, Павлов и Скиннер были главными сторонниками в этой области обучения. Теория обучения методом проб и ошибок касается того, как агенты учатся поведению путем усиления или ослабления ментальных связей на основе удовлетворения или дискомфорта, которые агент воспринимает из окружающей среды после выполнения определенного действия (Thorndike, 1898). Эта идея обучения была названа «законом эффекта», где «удовлетворение» - это усиление сопутствующего действия, основанное на «награде», а «дискомфорт» приводит к прекращению действия из-за «штрафа». Эти идеи вознаграждений и наказаний были дополнительно исследованы Б.Ф. Скиннером в его работе по оперантному обусловливанию, в которой утверждается, что агент добровольно усиливает свое поведение на основе стимулов или действий, приводящих к реакции окружающей среды (Скиннер, 1938). С другой стороны, классическое обусловливание Павлова утверждает, что сочетание стимулов (первый из которых является безусловным) создает непроизвольную реакцию в поведении агента (Павлов, 1927). Обе поведенческие теории обучения включают понятие некой ассоциативной пары стимулов в ответ на реакцию, при которой поведение агента обусловлено повторением действий в петле обратной связи.

Обучение методом проб и ошибок и закон эффектов имеют два различных свойства, которые повлияли на современные методы обучения с подкреплением, поскольку они являются выборочными и ассоциативными. Современный RL является селективным, учитывая, что для определенного состояния Окружающей среды действие выбирается из набора действий, и оно является ассоциативным, учитывая, что благоприятные действия с их ассоциированными состояниями запоминаются (т. Е. Сохраняются в памяти) (Sutton and Barto, 1998 ).

Область адаптивного управления связана с изучением поведения контроллера (или агента) в сложной динамической системе, где существуют неопределенности в параметрах управляемой системы. (Bellman, 1961) подразделяет задачи управления на детерминированные, стохастические и адаптивные. В адаптивной системе управления существует значительный уровень неопределенности в системе, где мало что известно о структуре окружающей среды или распределении параметров. Хотя для получения некоторой информации о системе можно использовать эксперименты, затраченное время сделает такой подход невозможным. Следовательно, необходимо изучить поведение контроллера в «онлайн» конфигурации. (Bellman, 1957a) показал уравнение Беллмана как функцию, которая фиксирует состояние и функцию стоимости динамической системы, и представил динамическое программирование как класс методов для поиска оптимального регулятора для задачи адаптивного управления. (Bellman, 1957b) сформулировал марковские процессы принятия решений (MDP) как стохастический процесс управления с дискретным временем для моделирования структуры обучения с подкреплением, в которой агент взаимодействует с окружающей средой в цикле обратной связи. Свойство Маркова предполагает, что текущее состояние захватывает всю информацию, необходимую для прогнозирования следующего состояния и его ожидаемого ответа, не полагаясь на предыдущую последовательность состояний. Другими словами, свойство Маркова - это условная вероятность того, что будущие состояния Окружающей среды зависят только от текущего состояния. Следовательно, он условно не зависит от прошлых состояний, учитывая, что мы знаем текущее состояние. MDP основан на теоретическом предположении, что состояния Окружающей среды обладают свойством Маркова.

Библиография

  • Павлов И.П. (1927). Перевод Анрепа Г.В. «Условные рефлексы: исследование физиологической активности коры головного мозга». Природа. 121 (3052): 662–664. Bibcode: 1928Natur.121..662D. DOI: 10.1038 / 121662a0.
  • Скиннер, Б. Ф. (1938). Поведение организмов: экспериментальный анализ. Appleton-Century.
  • Саттон, Р. С., и Барто, А. Г. (1998). Введение в обучение с подкреплением (Том 2, №4). Кембридж: MIT Press.
  • Торндайк, Э. Л. (1898). Интеллект животных: экспериментальное исследование ассоциативных процессов у животных. Психологический обзор: Приложения к монографии, 2 (4), i-109. Https://doi.org/10.1037/h0092987.
  • Саттон, Р. С., и Барто, А. Г. (1998). Обучение с подкреплением: введение. Пресса MIT.
  • Беллман, Р. Э. (1961). Процессы адаптивного управления - экскурсия. Принстон: Издательство Принстонского университета.
  • Беллман, Р. Э. (1957a). Динамическое программирование. Принстон: Издательство Принстонского университета.
  • Беллман, Р. Э. (1957b). Марковский процесс принятия решений. Журнал математики и механики, 6 (5), 679–684. Получено с www.jstor.org/stable/24900506.

Первоначально опубликовано на https://ekababisong.org.