Краткое введение в обучение с подкреплением

Обучение с подкреплением (RL) — это метод машинного обучения, который позволяет агенту методом проб и ошибок узнать, что делать в интерактивной среде, чтобы максимизировать числовой сигнал вознаграждения. Учащийся должен выяснить, какие действия приносят наибольшую награду, выполняя их.

некоторые ключевые термины для обучения с подкреплением следующие:

Окружающая среда: это физический мир, в котором действует агент (ученик).

Состояние: текущее состояние агента. Агент может оставаться в одном из многих состояний. При переходе из одного состояния в другое он выполняет действие.

Награда: как только действие предпринято, оно получает вознаграждение (отзыв) от среды.

Политика: ее можно описать как метод сопоставления состояния агента с действиями.

Ценность. Ее можно измерить качеством состояния или действием за получение вознаграждения, которое агент получил бы, выполнив действие в определенном состоянии.

Лучше всего это можно объяснить на примере PacMan. В этой игре PacMan должен есть еду в сетке, избегая призраков на своем пути. Мир сетки — это интерактивная среда для агента. PacMan получает награду за еду и наказание, если его убивает призрак (проигрывает игру). Состояния — это расположение PacMan в мире сетки, а общая совокупная награда — это PacMan, выигравший игру.

Разница между обучением с подкреплением и контролируемым обучением:

В контролируемом обучении и обучении с подкреплением используется сопоставление входных и выходных данных. Контролируемое обучение, при котором обратная связь, предоставленная агенту, представляет собой правильный набор действий для выполнения задачи. Обучение с подкреплением использует награды и наказания в качестве сигналов для положительного и отрицательного поведения.

Разница между обучением с подкреплением и обучением без учителя:

Неконтролируемое обучение, которое обычно связано с поиском структуры, скрытой в наборах немаркированных данных, обучение с подкреплением пытается максимизировать сигнал вознаграждения, а не пытаться найти скрытую структуру. Раскрытие структуры в опыте агента, безусловно, может быть полезным в обучении с подкреплением, но само по себе не решает проблему обучения с подкреплением максимизации сигнала вознаграждения.

Практическое применение обучения с подкреплением (RL)

RL довольно широко используется при создании ИИ для компьютерных игр.
RL можно использовать в здравоохранении для чат-ботов (текст, речь), которые могут учиться на взаимодействиях с пользователем и со временем улучшаться, изучая оптимальные политики лечения.
В робототехнике RL используется, чтобы позволить роботу создать для себя эффективную адаптивную систему управления, которая учится на собственном опыте и поведении.

Ссылки

https://www.kdnuggets.com/2018/03/5-things-reinforcement-learning.html
https://pathmind.com/wiki/deep-reinforcement-learning
Обучение с подкреплением: Ричард С. Саттон и Эндрю Г. Барто

Краткое введение в обучение с подкреплением

Вопросы по теме