Обучение с подкреплением (RL) — это метод машинного обучения, который позволяет агенту методом проб и ошибок узнать, что делать в интерактивной среде, чтобы максимизировать числовой сигнал вознаграждения. Учащийся должен выяснить, какие действия приносят наибольшую награду, выполняя их.
некоторые ключевые термины для обучения с подкреплением следующие:
Окружающая среда: это физический мир, в котором действует агент (ученик).
Состояние: текущее состояние агента. Агент может оставаться в одном из многих состояний. При переходе из одного состояния в другое он выполняет действие.
Награда: как только действие предпринято, оно получает вознаграждение (отзыв) от среды.
Политика: ее можно описать как метод сопоставления состояния агента с действиями.
Ценность. Ее можно измерить качеством состояния или действием за получение вознаграждения, которое агент получил бы, выполнив действие в определенном состоянии.
Лучше всего это можно объяснить на примере PacMan. В этой игре PacMan должен есть еду в сетке, избегая призраков на своем пути. Мир сетки — это интерактивная среда для агента. PacMan получает награду за еду и наказание, если его убивает призрак (проигрывает игру). Состояния — это расположение PacMan в мире сетки, а общая совокупная награда — это PacMan, выигравший игру.
Разница между обучением с подкреплением и контролируемым обучением:
В контролируемом обучении и обучении с подкреплением используется сопоставление входных и выходных данных. Контролируемое обучение, при котором обратная связь, предоставленная агенту, представляет собой правильный набор действий для выполнения задачи. Обучение с подкреплением использует награды и наказания в качестве сигналов для положительного и отрицательного поведения.
Разница между обучением с подкреплением и обучением без учителя:
Неконтролируемое обучение, которое обычно связано с поиском структуры, скрытой в наборах немаркированных данных, обучение с подкреплением пытается максимизировать сигнал вознаграждения, а не пытаться найти скрытую структуру. Раскрытие структуры в опыте агента, безусловно, может быть полезным в обучении с подкреплением, но само по себе не решает проблему обучения с подкреплением максимизации сигнала вознаграждения.
Практическое применение обучения с подкреплением (RL)
- RL довольно широко используется при создании ИИ для компьютерных игр.
- RL можно использовать в здравоохранении для чат-ботов (текст, речь), которые могут учиться на взаимодействиях с пользователем и со временем улучшаться, изучая оптимальные политики лечения.
- В робототехнике RL используется, чтобы позволить роботу создать для себя эффективную адаптивную систему управления, которая учится на собственном опыте и поведении.
Ссылки
- https://www.kdnuggets.com/2018/03/5-things-reinforcement-learning.html
- https://pathmind.com/wiki/deep-reinforcement-learning
- Обучение с подкреплением: Ричард С. Саттон и Эндрю Г. Барто