Максимальное вознаграждение за взаимодействие: введение в обучение с подкреплением

Обучение с подкреплением — это тип машинного обучения, при котором агент учится взаимодействовать с окружающей средой, чтобы максимизировать сигнал вознаграждения. Агент предпринимает действия в зависимости от состояния среды и получает обратную связь в виде вознаграждения или наказания. Цель агента — изучить политику или сопоставление состояний с действиями, которое максимизирует ожидаемое кумулятивное вознаграждение с течением времени.

Вот ключевые компоненты системы обучения с подкреплением:

Среда. Среда — это внешняя система, с которой взаимодействует агент. Он включает всю соответствующую информацию о состоянии и правила перехода между состояниями.
Состояние. Состояние среды — это информация, которую агент использует для принятия решений. Он включает в себя всю необходимую информацию о текущем состоянии окружающей среды.
Действие. Действие – это решение, принимаемое агентом на каждом временном шаге. Действие выбирается на основе текущего состояния среды и текущей политики.
Награда. Награда — это обратная связь, которую агент получает от среды. Это скалярное значение, которое показывает, насколько хорошим или плохим было действие агента.
Политика. Политика — это стратегия агента по выбору действий на основе текущего состояния среды. Политика изучается путем проб и ошибок с использованием сигнала вознаграждения.

Это всего лишь несколько новых слов, которые можно добавить в свой словарный запас. Жаргон RL похож на головоломку — как только вы ее разгадаете, вам станет интересно, из-за чего весь этот шум.

Типы алгоритмов RL

Вот некоторые распространенные типы алгоритмов обучения с подкреплением:

A. Основанный на политике против основанный на ценностях

Алгоритмы обучения с подкреплением, основанные на политике, изучают оптимальную политику напрямую, без явного вычисления функции ценности.
Алгоритмы обучения с подкреплением на основе ценности изучают функцию оптимальной ценности, которая представляет собой ожидаемое совокупное вознаграждение для каждой пары состояние-действие.
Актер-критик – это сочетание этих двух качеств.

B. Без модели против модели на основе

Алгоритмы обучения с подкреплением на основе моделей изучают модель среды, включая динамику перехода между состояниями и функцию вознаграждения.
Безмодельные алгоритмы обучения с подкреплением не изучают модель среды, а вместо этого изучают оптимальную политику методом проб и ошибок.

Выбор между Обучением с подкреплением, основанным на политике и на основе ценностей, определяет процесс обучения или обучения.

Обучение с подкреплением без модели и на основе модели может помочь определить характер среды, в которой работает агент.

Приложения:

Везде, где вы хотите, например, игры, финансы, здравоохранение и т. д.

Образец кода:

Ссылка на гитхаб:

Нажмите здесь для алгоритма на основе ценности.

Заключение:

Обучение с подкреплением — это мощный метод обучения принятию решений в сложных условиях. Он включает в себя обучение методом проб и ошибок посредством взаимодействия с окружающей средой, чтобы максимизировать сигнал вознаграждения. При наличии правильных инструментов и методов обучение с подкреплением можно использовать для решения широкого круга проблем, от игр до здравоохранения.

Использованная литература:

Саттон, Р.С., и Барто, А.Г. (2018). Обучение с подкреплением: введение (2-е изд.). Массачусетский технологический институт Пресс.
Кельблинг, Л.П., Литтман, М.Л., и Мур, А.В. (1996). Обучение с подкреплением: опрос. Журнал исследований искусственного интеллекта, 4, 237–285.
Мних, В., Кавукчуоглу, К., Сильвер, Д., Русу, А. А., Венесс, Дж., Беллемаре, М. Г., … и Петерсен, С. (2015). Контроль на уровне человека посредством глубокого обучения с подкреплением. Природа, 518 (7540), 529–533.
Кастро, П.С., и Руано, А.Е. (2019). Обучение с подкреплением в области финансов: обзор. Экспертные системы с приложениями, 123, 293–307.
Сильвер, Д., Хуанг, А., Мэддисон, С.Дж., Гез, А., Сифре, Л., Ван Ден Дрисше, Г., … и Хассабис, Д. (2016). Освоение игры в го с глубокими нейронными сетями и поиском по дереву. Природа, 529 (7587), 484–489.

Максимальное вознаграждение за взаимодействие: введение в обучение с подкреплением