Что такое обучение с подкреплением?
Подкрепление — это один из видов техники машинного обучения. Его основная концепция заключается в непрерывном взаимодействии с динамической средой для правильного определения следующего действия. Этот метод проб и ошибок похож на обучение езде на велосипеде в молодости. Сначала будем падать, а после знакомства уже нет. В целом обучение с подкреплением имеет значительный потенциал для принятия сложных решений в области промышленной автоматизации, автономного вождения, видеоигр и робототехники.
Плюсы и минусы обучения с подкреплением
Плюсы:
- Обучение с подкреплением может решить очень сложные проблемы, которые невозможно решить обычными методами.
- Обучение с подкреплением может учиться на ошибках, поэтому нет необходимости предоставлять значительный набор обучающих данных.
- Эффективность обучения с подкреплением может превзойти человеческие ожидания.
Минусы:
- Обучение с подкреплением должно иметь дело со значительными данными, поэтому оно также потребует значительных вычислительных ресурсов.
- Обучение с подкреплением не подходит для простых задач.
- Обучение с подкреплением предполагает, что мир является марковским, а это не так.
Когда следует рассмотреть возможность применения обучения с подкреплением
- Тренировка обучения с подкреплением займет много времени, и потребуется время, чтобы исправить свою ошибку. Поэтому, если у вас недостаточно времени или вы не можете позволить себе цену ошибки, вам не следует применять обучение с подкреплением.
- Цель обучения с подкреплением — максимизировать вознаграждение, которое определяет пользователь. Награда сильно повлияет на ИИ, чтобы определить, какое действие должен предпринять ИИ. Следовательно, если мы можем определить конкретную функцию вознаграждения, мы можем применять обучение с подкреплением или не должны.
Разница между контролируемым обучением и обучением с подкреплением
Обучение под наблюдением работает с заданными образцами, которые должны иметь ввод и маркировку, поэтому ИИ может отображать обобщенную формулу для прогнозирования результатов.
Обучение с подкреплением работает над взаимодействием с окружающей средой, чтобы определить ее поведение на основе марковских процессов принятия решений, изучения политики, глубокого обучения и обучения ценности.
Автономное обучение с подкреплением
Концепция автономного подкрепления заключается в том, чтобы изучить лучшую стратегию из собранного набора данных. В процессе обучения не требуется дополнительного взаимодействия с окружающей средой. Это уменьшит отклонение от окружающей среды, а затем расширит диапазон применения обучения с подкреплением.
Плюсы и минусы автономного обучения с подкреплением
Плюсы:
- Используйте большие наборы данных, ранее собранные без взаимодействия
- Меньшие затраты и риски
Минусы:
- Без получения прямой обратной связи обучение с подкреплением в автономном режиме часто приводит к нежелательным результатам на практике.
- Необходимо собрать достаточно данных для изучения каждого навыка/задачи
Когда мы должны рассмотреть возможность применения автономного обучения с подкреплением (и когда не должны)
Развертывание сбора новых данных может быть связано с рядом рисков и затрат в реальных приложениях, таких как робототехника, здравоохранение, самостоятельное вождение. Напротив, если мы сможем проводить обучение с подкреплением в смоделированной среде или собирать новые данные экономически эффективными способами, автономное обучение с подкреплением не будет первым выбором.
Пример автономного обучения с подкреплением в реальном мире
Одно из перспективных применений в реальном мире — автономное вождение. Автономное обучение с подкреплением может решить проблему безопасности и снизить затраты на человеческий контроль. Например, обычная RL обучается через взаимодействие с окружающей средой и действия методом проб и ошибок, что не подходит для автономного вождения, поскольку транспортное средство уязвимо для аварий. В последнее время все больше и больше исследовательских работ в этой области. Если вы заинтересованы в применении автономного обучения с подкреплением, вы можете прочитать этот обзор для получения дополнительной информации.