Во-первых, давайте пересмотрим искусственный интеллект
Что такое обучение с подкреплением?
Это область Машинного обучения, где мы заботимся о том, как программные агенты действуют в среде, чтобы максимизировать идею кумулятивного вознаграждения. Мы также называем это приблизительным динамическим программированием или нейродинамическим программированием, когда говорим об исследованиях операций и литературе по контролю. Тем не менее, чем это отличается от обучения с учителем, так это тем, что здесь не нужны правильные пары ввода/вывода, и нам не нужно исправлять неоптимальные действия. Мы фокусируемся на производительности, управляя балансом между исследованием и эксплуатацией. А поскольку набора обучающих данных нет, он учится на собственном опыте.
Факторы обучения с подкреплением с помощью Python
Следующие параметры учитывают Python Reinforcement Learning:
Посмотрите NLTK Python Tutorial
- Ввод — начальное состояние, в котором модель должна начинаться.
- Выход - несколько возможных выходов
- Обучение. Модель обучается на основе ввода, возвращает состояние, и пользователь решает, вознаграждать или наказывать его.
- Обучение — модель продолжает учиться
- Лучшее решение - максимальное вознаграждение решает, что
Типы обучения с подкреплением на Python
Мы широко наблюдаем два вида подкрепления в Python:
а. Позитивное обучение с подкреплением
Всякий раз, когда определенное поведение вызывает событие, это усиливает поведение и снижает его редкость. Скажем, это положительно влияет на поведение. Это имеет следующие преимущества:
- Оптимизация производительности
- Поддержание перемен в течение длительного времени
Знаете ли вы об учебнике по НЛП
Он также сталкивается с проблемой:
- Слишком большое подкрепление может привести к перегрузке состояния и снижению результатов.
б. Обучение с отрицательным подкреплением
Если мы остановим негативное состояние, это усилит поведение, ведущее к нему. Это отрицательное подкрепление, и оно имеет следующие преимущества:
- Предоставление неповиновения минимальному стандарту производительности
- Улучшение поведения
И, как и обучение с положительным подкреплением, у этого тоже есть недостаток:
- Этого достаточно, чтобы соответствовать минимально ожидаемому поведению
Усиленное обучение против контролируемого обучения
Мы упоминали в разделе 2, что это две разные вещи. Теперь посмотрим, как.
а. Принятие решения
Обучение с подкреплением связано с последовательным принятием решений. Таким образом, вывод зависит от текущего ввода, а следующий ввод зависит от вывода предыдущего ввода.
Давайте пересмотрим операторы утверждений Python
Однако контролируемое обучение предполагает принятие всех решений на начальном вводе. .
б. Зависимость и метки
Решения зависят друг от друга в обучении с подкреплением. Следовательно, мы присваиваем метки последовательностям зависимых решений. В обучении с учителем решения исключают друг друга, что позволяет нам присваивать каждому решению метки.
в. Примеры
Примером обучения с подкреплением может быть игра в шахматы, а для обучения с учителем — распознавание объектов. (Смотрите, это кошка. А теперь посмотрите на эту фотографию [другого кота]. Догадаетесь, что это такое?)
Применение обучения с подкреплением
Этот вид обучения, как вы уже догадались, находит применение во множестве вариантов использования:
- Робототехника - для промышленной автоматизации
- Машинное обучение - для обработки данных
- Создание обучающих систем, обеспечивающих индивидуальные инструкции и материалы в соответствии с требованиями студентов
Давайте пересмотрим модульное тестирование Python
В ситуациях, когда система должна взаимодействовать со своей средой для сбора информации о ней, методы RL отлично работают.
Обучение с подкреплением на примере Python
Прежде чем мы попрощаемся, мы думаем, что должны продемонстрировать простой обучающий агент, использующий Python. В следующем примере мы реализуем тележку с помощью пакета спортзала и наблюдаем, как она учится балансировать:
- ››› импортный тренажерный зал
- ››› env=gym.make(‘CartPole-v0’)
[33mWARN: gym.spaces.Box автоматически определил dtype как ‹class ‘numpy.float32’›. Укажите явный dtype.[0m
- ››› окр.сбросить()
массив ([0,00261226, -0,02941416, 0,01968586, -0,0034146])
- ››› для _ в диапазоне(1000):
- env.рендеринг()
- env.шаг(env.action_space.пример())
Знаете ли вы о линейной регрессии в Python
Итак, все это было в Reinforcement Learning with Python. Надеюсь, вам понравилось наше объяснение.
Вывод
Следовательно, в этом учебнике по Python AI мы обсудили значение обучения с подкреплением. Более того, мы увидели типы и факторы обучения с подкреплением с помощью Python. Кроме того, мы поняли концепцию обучения с подкреплением на Python на примере. Кроме того, если вы чувствуете какую-либо путаницу в отношении Reinforcement Learning Python, спросите на вкладке комментариев.