Обучение с подкреплением на Python

Во-первых, давайте пересмотрим искусственный интеллект

Что такое обучение с подкреплением?

Это область Машинного обучения, где мы заботимся о том, как программные агенты действуют в среде, чтобы максимизировать идею кумулятивного вознаграждения. Мы также называем это приблизительным динамическим программированием или нейродинамическим программированием, когда говорим об исследованиях операций и литературе по контролю. Тем не менее, чем это отличается от обучения с учителем, так это тем, что здесь не нужны правильные пары ввода/вывода, и нам не нужно исправлять неоптимальные действия. Мы фокусируемся на производительности, управляя балансом между исследованием и эксплуатацией. А поскольку набора обучающих данных нет, он учится на собственном опыте.

Факторы обучения с подкреплением с помощью Python

Следующие параметры учитывают Python Reinforcement Learning:
Посмотрите NLTK Python Tutorial

Ввод — начальное состояние, в котором модель должна начинаться.
Выход - несколько возможных выходов
Обучение. Модель обучается на основе ввода, возвращает состояние, и пользователь решает, вознаграждать или наказывать его.
Обучение — модель продолжает учиться
Лучшее решение - максимальное вознаграждение решает, что

Типы обучения с подкреплением на Python

Мы широко наблюдаем два вида подкрепления в Python:

а. Позитивное обучение с подкреплением

Всякий раз, когда определенное поведение вызывает событие, это усиливает поведение и снижает его редкость. Скажем, это положительно влияет на поведение. Это имеет следующие преимущества:

Оптимизация производительности
Поддержание перемен в течение длительного времени

Знаете ли вы об учебнике по НЛП
Он также сталкивается с проблемой:

Слишком большое подкрепление может привести к перегрузке состояния и снижению результатов.

б. Обучение с отрицательным подкреплением

Если мы остановим негативное состояние, это усилит поведение, ведущее к нему. Это отрицательное подкрепление, и оно имеет следующие преимущества:

Предоставление неповиновения минимальному стандарту производительности
Улучшение поведения

И, как и обучение с положительным подкреплением, у этого тоже есть недостаток:

Этого достаточно, чтобы соответствовать минимально ожидаемому поведению

Усиленное обучение против контролируемого обучения

Мы упоминали в разделе 2, что это две разные вещи. Теперь посмотрим, как.

а. Принятие решения

Обучение с подкреплением связано с последовательным принятием решений. Таким образом, вывод зависит от текущего ввода, а следующий ввод зависит от вывода предыдущего ввода.
Давайте пересмотрим операторы утверждений Python
Однако контролируемое обучение предполагает принятие всех решений на начальном вводе. .

б. Зависимость и метки

Решения зависят друг от друга в обучении с подкреплением. Следовательно, мы присваиваем метки последовательностям зависимых решений. В обучении с учителем решения исключают друг друга, что позволяет нам присваивать каждому решению метки.

в. Примеры

Примером обучения с подкреплением может быть игра в шахматы, а для обучения с учителем — распознавание объектов. (Смотрите, это кошка. А теперь посмотрите на эту фотографию [другого кота]. Догадаетесь, что это такое?)

Применение обучения с подкреплением

Этот вид обучения, как вы уже догадались, находит применение во множестве вариантов использования:

Робототехника - для промышленной автоматизации
Машинное обучение - для обработки данных
Создание обучающих систем, обеспечивающих индивидуальные инструкции и материалы в соответствии с требованиями студентов

Давайте пересмотрим модульное тестирование Python
В ситуациях, когда система должна взаимодействовать со своей средой для сбора информации о ней, методы RL отлично работают.

Обучение с подкреплением на примере Python

Прежде чем мы попрощаемся, мы думаем, что должны продемонстрировать простой обучающий агент, использующий Python. В следующем примере мы реализуем тележку с помощью пакета спортзала и наблюдаем, как она учится балансировать:

››› импортный тренажерный зал
››› env=gym.make(‘CartPole-v0’)

[33mWARN: gym.spaces.Box автоматически определил dtype как ‹class ‘numpy.float32’›. Укажите явный dtype.[0m

››› окр.сбросить()

массив ([0,00261226, -0,02941416, 0,01968586, -0,0034146])

››› для _ в диапазоне(1000):
env.рендеринг()
env.шаг(env.action_space.пример())

Знаете ли вы о линейной регрессии в Python
Итак, все это было в Reinforcement Learning with Python. Надеюсь, вам понравилось наше объяснение.

Вывод

Следовательно, в этом учебнике по Python AI мы обсудили значение обучения с подкреплением. Более того, мы увидели типы и факторы обучения с подкреплением с помощью Python. Кроме того, мы поняли концепцию обучения с подкреплением на Python на примере. Кроме того, если вы чувствуете какую-либо путаницу в отношении Reinforcement Learning Python, спросите на вкладке комментариев.

Обучение с подкреплением на Python — AI