Что такое обучение с подкреплением?

Подкрепление — это один из видов техники машинного обучения. Его основная концепция заключается в непрерывном взаимодействии с динамической средой для правильного определения следующего действия. Этот метод проб и ошибок похож на обучение езде на велосипеде в молодости. Сначала будем падать, а после знакомства уже нет. В целом обучение с подкреплением имеет значительный потенциал для принятия сложных решений в области промышленной автоматизации, автономного вождения, видеоигр и робототехники.

Плюсы и минусы обучения с подкреплением

Плюсы:

  1. Обучение с подкреплением может решить очень сложные проблемы, которые невозможно решить обычными методами.
  2. Обучение с подкреплением может учиться на ошибках, поэтому нет необходимости предоставлять значительный набор обучающих данных.
  3. Эффективность обучения с подкреплением может превзойти человеческие ожидания.

Минусы:

  1. Обучение с подкреплением должно иметь дело со значительными данными, поэтому оно также потребует значительных вычислительных ресурсов.
  2. Обучение с подкреплением не подходит для простых задач.
  3. Обучение с подкреплением предполагает, что мир является марковским, а это не так.

Когда следует рассмотреть возможность применения обучения с подкреплением

  1. Тренировка обучения с подкреплением займет много времени, и потребуется время, чтобы исправить свою ошибку. Поэтому, если у вас недостаточно времени или вы не можете позволить себе цену ошибки, вам не следует применять обучение с подкреплением.
  2. Цель обучения с подкреплением — максимизировать вознаграждение, которое определяет пользователь. Награда сильно повлияет на ИИ, чтобы определить, какое действие должен предпринять ИИ. Следовательно, если мы можем определить конкретную функцию вознаграждения, мы можем применять обучение с подкреплением или не должны.

Разница между контролируемым обучением и обучением с подкреплением

Обучение под наблюдением работает с заданными образцами, которые должны иметь ввод и маркировку, поэтому ИИ может отображать обобщенную формулу для прогнозирования результатов.

Обучение с подкреплением работает над взаимодействием с окружающей средой, чтобы определить ее поведение на основе марковских процессов принятия решений, изучения политики, глубокого обучения и обучения ценности.

Автономное обучение с подкреплением

Концепция автономного подкрепления заключается в том, чтобы изучить лучшую стратегию из собранного набора данных. В процессе обучения не требуется дополнительного взаимодействия с окружающей средой. Это уменьшит отклонение от окружающей среды, а затем расширит диапазон применения обучения с подкреплением.

Плюсы и минусы автономного обучения с подкреплением

Плюсы:

  1. Используйте большие наборы данных, ранее собранные без взаимодействия
  2. Меньшие затраты и риски

Минусы:

  1. Без получения прямой обратной связи обучение с подкреплением в автономном режиме часто приводит к нежелательным результатам на практике.
  2. Необходимо собрать достаточно данных для изучения каждого навыка/задачи

Когда мы должны рассмотреть возможность применения автономного обучения с подкреплением (и когда не должны)

Развертывание сбора новых данных может быть связано с рядом рисков и затрат в реальных приложениях, таких как робототехника, здравоохранение, самостоятельное вождение. Напротив, если мы сможем проводить обучение с подкреплением в смоделированной среде или собирать новые данные экономически эффективными способами, автономное обучение с подкреплением не будет первым выбором.

Пример автономного обучения с подкреплением в реальном мире

Одно из перспективных применений в реальном мире — автономное вождение. Автономное обучение с подкреплением может решить проблему безопасности и снизить затраты на человеческий контроль. Например, обычная RL обучается через взаимодействие с окружающей средой и действия методом проб и ошибок, что не подходит для автономного вождения, поскольку транспортное средство уязвимо для аварий. В последнее время все больше и больше исследовательских работ в этой области. Если вы заинтересованы в применении автономного обучения с подкреплением, вы можете прочитать этот обзор для получения дополнительной информации.