Алгоритмы машинного обучения: как они работают и варианты использования для каждого типа — Часть III из III

Существует три основных типа алгоритмов машинного обучения:

  1. Контролируемое обучение
  2. Неконтролируемое обучение
  3. Обучение с подкреплением

В части III этой серии статей я расскажу о том, что такое алгоритмы обучения с подкреплением, как они работают и приведу несколько примеров того, где их можно применять.

Что такое обучение с подкреплением

Алгоритм учится выполнять задачу, просто пытаясь максимизировать вознаграждение, которое он получает за свои действия (например, максимизирует баллы, которые он получает за увеличение доходности инвестиционного портфеля).

Как работает обучение с подкреплением

  1. Алгоритм воздействует на окружающую среду (например, совершает сделку в финансовом портфеле).
  2. Он получает вознаграждение, если действие приближает машину на один шаг к максимизации общего доступного вознаграждения (например, самая высокая общая доходность портфеля).
  3. Алгоритм оптимизирует серию действий, корректируя себя с течением времени.

Случаи использования

Обратите внимание: приведенные ниже варианты использования не являются единственными вариантами использования для каждого типа алгоритма. Это примеры, которые помогут вам понять, где их можно применять.

  1. Оптимизация торговой стратегии для портфеля торговли опционами
  2. Оптимизация вождения беспилотных автомобилей
  3. Балансировка нагрузки электрических сетей в различных циклах спроса
  4. Складируйте и комплектуйте запасы с помощью роботов
  5. Оптимизация ценообразования в режиме реального времени для онлайн-аукциона товара с ограниченным предложением

На этом я завершаю серию III части об алгоритмах машинного обучения и примерах использования каждого из них. В моей следующей серии я расскажу о глубоком обучении.