Во-первых, давайте пересмотрим искусственный интеллект

Что такое обучение с подкреплением?

Это область Машинного обучения, где мы заботимся о том, как программные агенты действуют в среде, чтобы максимизировать идею кумулятивного вознаграждения. Мы также называем это приблизительным динамическим программированием или нейродинамическим программированием, когда говорим об исследованиях операций и литературе по контролю. Тем не менее, чем это отличается от обучения с учителем, так это тем, что здесь не нужны правильные пары ввода/вывода, и нам не нужно исправлять неоптимальные действия. Мы фокусируемся на производительности, управляя балансом между исследованием и эксплуатацией. А поскольку набора обучающих данных нет, он учится на собственном опыте.

Факторы обучения с подкреплением с помощью Python

Следующие параметры учитывают Python Reinforcement Learning:
Посмотрите NLTK Python Tutorial

  • Ввод — начальное состояние, в котором модель должна начинаться.
  • Выход - несколько возможных выходов
  • Обучение. Модель обучается на основе ввода, возвращает состояние, и пользователь решает, вознаграждать или наказывать его.
  • Обучение — модель продолжает учиться
  • Лучшее решение - максимальное вознаграждение решает, что

Типы обучения с подкреплением на Python

Мы широко наблюдаем два вида подкрепления в Python:

а. Позитивное обучение с подкреплением

Всякий раз, когда определенное поведение вызывает событие, это усиливает поведение и снижает его редкость. Скажем, это положительно влияет на поведение. Это имеет следующие преимущества:

  • Оптимизация производительности
  • Поддержание перемен в течение длительного времени

Знаете ли вы об учебнике по НЛП
Он также сталкивается с проблемой:

  • Слишком большое подкрепление может привести к перегрузке состояния и снижению результатов.

б. Обучение с отрицательным подкреплением

Если мы остановим негативное состояние, это усилит поведение, ведущее к нему. Это отрицательное подкрепление, и оно имеет следующие преимущества:

  • Предоставление неповиновения минимальному стандарту производительности
  • Улучшение поведения

И, как и обучение с положительным подкреплением, у этого тоже есть недостаток:

  • Этого достаточно, чтобы соответствовать минимально ожидаемому поведению

Усиленное обучение против контролируемого обучения

Мы упоминали в разделе 2, что это две разные вещи. Теперь посмотрим, как.

а. Принятие решения

Обучение с подкреплением связано с последовательным принятием решений. Таким образом, вывод зависит от текущего ввода, а следующий ввод зависит от вывода предыдущего ввода.
Давайте пересмотрим операторы утверждений Python
Однако контролируемое обучение предполагает принятие всех решений на начальном вводе. .

б. Зависимость и метки

Решения зависят друг от друга в обучении с подкреплением. Следовательно, мы присваиваем метки последовательностям зависимых решений. В обучении с учителем решения исключают друг друга, что позволяет нам присваивать каждому решению метки.

в. Примеры

Примером обучения с подкреплением может быть игра в шахматы, а для обучения с учителем — распознавание объектов. (Смотрите, это кошка. А теперь посмотрите на эту фотографию [другого кота]. Догадаетесь, что это такое?)

Применение обучения с подкреплением

Этот вид обучения, как вы уже догадались, находит применение во множестве вариантов использования:

  • Робототехника - для промышленной автоматизации
  • Машинное обучение - для обработки данных
  • Создание обучающих систем, обеспечивающих индивидуальные инструкции и материалы в соответствии с требованиями студентов

Давайте пересмотрим модульное тестирование Python
В ситуациях, когда система должна взаимодействовать со своей средой для сбора информации о ней, методы RL отлично работают.

Обучение с подкреплением на примере Python

Прежде чем мы попрощаемся, мы думаем, что должны продемонстрировать простой обучающий агент, использующий Python. В следующем примере мы реализуем тележку с помощью пакета спортзала и наблюдаем, как она учится балансировать:

  1. ››› импортный тренажерный зал
  2. ››› env=gym.make(‘CartPole-v0’)

[33mWARN: gym.spaces.Box автоматически определил dtype как ‹class ‘numpy.float32’›. Укажите явный dtype.[0m

  1. ››› окр.сбросить()

массив ([0,00261226, -0,02941416, 0,01968586, -0,0034146])

  1. ››› для _ в диапазоне(1000):
  2. env.рендеринг()
  3. env.шаг(env.action_space.пример())

Знаете ли вы о линейной регрессии в Python
Итак, все это было в Reinforcement Learning with Python. Надеюсь, вам понравилось наше объяснение.

Вывод

Следовательно, в этом учебнике по Python AI мы обсудили значение обучения с подкреплением. Более того, мы увидели типы и факторы обучения с подкреплением с помощью Python. Кроме того, мы поняли концепцию обучения с подкреплением на Python на примере. Кроме того, если вы чувствуете какую-либо путаницу в отношении Reinforcement Learning Python, спросите на вкладке комментариев.