В «ледяной-нескользкой» среде используется метод кросс-энтропии, чтобы начать обучение с подкреплением.

Обучение оптимального решения с течением времени агентом в среде, как правило, определяется как обучение с подкреплением.

На высоком уровне есть несколько методов обучения с подкреплением, классифицированных и упрощенно объясненных следующим образом:

1. Без модели или на основе модели:
а. Без модели: метод грубой силы, при котором агент действует первым, а думает позже.
b. На основе модели. Агент делает прогноз на основе исторических данных, предпринимает действия на основе прогноза.

2. На основе ценностей или политик:
а. На основе стоимости: агент может получить дисконтированное общее вознаграждение в данном состоянии среды.
b. На основе политики: когда агент имеет много областей действия и с политикой, интерпретатор (мы) будет контролировать состояние и действия агента.

3. В соответствии с политикой или вне ее:
а. В соответствии с политикой: обучение происходит в результате предпринятых действий и их влияния на состояние.
б. Вне политики: обучение происходит в результате нескольких предпринятых действий с последующим накоплением вознаграждения.

Метод перекрестной энтропии - это не модельный, основанный на политике и основанный на политике метод.

В контексте замерзшего озера:

Окружающая среда - это замерзшее озеро, и агент пытается добраться до места назначения.

Соревнование

Озеро покрыто льдом и густым туманом. Нам известны отверстия в ледяном покрове, но агент об этом не подозревает.

Агент носит обувь с шипами, чтобы не поскользнуться на льду при повороте.

У актера также плохая видимость, и навигация затруднена. Для этого актера каждый шаг - это прыжок веры.

Это игра на выживание, цель которой - добраться до дома. Следовательно, награда в виде «1» будет получена только после того, как мы вернемся домой. В течение оставшейся части пути мы предполагаем, что мы живем, чтобы сделать еще один шаг.

Мы не получаем никакой награды от окружающей среды за выживание.

Преобразование случая в детерминированный, прерывистый сценарий:

Озеро представляет собой сетку 4x4, и агент может перемещаться вверх, вниз, влево и вправо. Следовательно, пространство наблюдения дискретно от 0 до 15, и то же самое идет от пространства действий, которое составляет от 0 до 3.

Давайте продолжим и создадим класс, который преобразует пространство наблюдения и пространство действий в двоичное с помощью кодирования onehot.

В коде наша среда выглядит так:

Кросс-энтропийный метод:

Поскольку это подход, основанный на политике, нейронная сеть (нелинейная функция) определяет действие, которое агент должен предпринять с намерением максимизировать вознаграждение.

Шаги методов:

  1. Сыграйте n ’количество серий, используя текущую модель и среду.
  2. Подсчитайте общую награду за каждый эпизод и определите границу вознаграждения. Обычно мы используем некоторый процентиль всех наград, например, от 50 до 70.
  3. Выбросьте все эпизоды с наградой ниже границы.
  4. Тренируйтесь по оставшимся «элитным» эпизодам, используя наблюдения в качестве входных данных и выдаваемые действия в качестве желаемых выходных данных.
  5. Повторяйте с шага 1, пока мы не будем удовлетворены результатом или не достигнем цели.

В контексте нашей замороженной озерной среды давайте посмотрим на «Эпизод 2»:

Наблюдение 1: o1 = пиксель 1,1, a1 = 0, r1 = 0
Наблюдение 2: o2 = пиксель 1,2, a1 = правый, r1 = 0
Наблюдение 3: o2 = пиксель 2,2 , a1 = вниз, r1 = 0 (КОНЕЦ, упал в яму)

Решение проблемы с вознаграждением:

Мы решим проблему вознаграждения, чтобы определить прогресс, введя дисконтированное общее вознаграждение с коэффициентом дисконтирования от 0,9 до 0,95.

Все это вводится в функции filter_batch:

Мы сохраним успешные эпизоды или эпизоды с более длительным периодом, в течение более длительного времени, чтобы модель могла учиться на них и тратить больше времени на их изучение, также снижая скорость обучения.

Вывод и практичность:

Хотя в нашей повседневной жизни нам не сложно найти дорогу домой, и мы знаем о пункте назначения, случай с замороженным озером или любым другим в сфере обучения с подкреплением критикуют за то, что он не имеет отношения к корпоративному миру по сравнению с в область глубокого обучения.

Само обучение с подкреплением зависит от существующих подходов в мире глубокого обучения. То, как мы воспринимаем проблему, - это совсем другой случай в обучении с подкреплением.

В качестве примера обнаружения мошенничества нам потребуется создать среду с обширным профилем мошенников и клиентов в среде. Затем нам понадобится профиль агента, который попытается выявить и устранить мошенничество.

Это позволит нам обучить модель возможностям мошенничества, которые мы не покрываем.

Если вы дошли до этого момента, благодарим вас за то, что прочитали этот рассказ, и вы можете получить полный код здесь.

Источник:

Большое спасибо Максиму Лапану, поскольку его книга Практическое применение глубокого обучения с подкреплением помогла мне начать работу в мире обучения с подкреплением.