Обучение с подкреплением в ИИ

Машинное обучение (ML) оказалось одним из самых технических достижений десятилетия, меняющих правила игры. Сейчас оно в той или иной форме используется почти во всех других программах. и программное обеспечение в Интернете. В сегодняшней растущей конкурентной среде машинное обучение позволяет организациям ускорить цифровую трансформацию и перейти в эпоху автоматизации. С помощью алгоритмов машинного обучения AI смог выйти за рамки простого выполнения задач, на которые он был запрограммирован.

Алгоритмы машинного обучения могут анализировать большие объемы данных и извлекать из них значимую информацию. Сегодня для обучения алгоритмов машинного обучения используются три распространенных подхода: обучение с учителем, обучение без учителя и обучение с подкреплением. Мы постараемся узнать больше об обучении с подкреплением в этом блоге.

Что такое обучение с подкреплением?

Обучение с подкреплением - это Машинное обучение Алгоритм, который непосредственно основан на том, как люди учатся на данных в своей повседневной жизни. Это подход, основанный на обратной связи, при котором система учится вести себя в определенной среде, выполняя ввод и наблюдая за результатами. Система получает положительную обратную связь за каждое успешное действие , и отрицательный отзыв или штраф за каждый отрицательный отзыв.

Обучение с подкреплением, которое основано на психологическом понятии обусловливание, работает путем помещения алгоритма в рабочую среду с интерпретатором. и система вознаграждений. Выходной результат отправляется интерпретатору, который решает, является ли результат полезным. Система использует методы проб и ошибок, чтобы улучшить себя и учиться на новых обстоятельства.

В случае, если программа находит правильный результат, интерпретатор поощряет решение, награждая алгоритм. Если результат неблагоприятный, алгоритм заставляет повторяться до тех пор, пока не будет найден лучший результат. В результате программное обеспечение запрограммировано на предоставление наилучшего решения и наилучшего вознаграждения.

Как работает обучение с подкреплением?

В разделе Алгоритм обучения с подкреплением агент (система) исследует незнакомую среду для достижения цели. RL основан на концепции, согласно которой все цели могут быть достигнуты путем максимизации ожидаемого совокупного вознаграждения. Чтобы максимизировать вознаграждение, агент должен научиться воспринимать состояние окружающей среды посредством своих действий.

Система обучения с подкреплением состоит из четырех основных компонентов, помимо агента и среды: политика, вознаграждение, функция ценности и модель среды.

Политика- Политика описывает, как агент действует в определенный момент времени. Политика, в общем, представляет собой отображение между состояниями среды, действиями, действиями, которые агент выполняет в среде. В простейших случаях политика может быть простой функцией или таблицей подстановки, но она также может включать в себя сложные вычисления функций. Политика - это основа того, что агент узнает.
Вознаграждение - цель задачи обучения с подкреплением определяется вознаграждением. Действия агента приводят к вознаграждению на каждом временном шаге. Конечная цель агента - максимизировать общее получаемое вознаграждение. Таким образом, вознаграждение различает положительные и отрицательные результаты агента. Награды можно рассматривать просто как удовольствие и боль.
Функция значения - значение состояния - это совокупная сумма вознаграждений, которые агент может ожидать в будущем, если он начнет с этого штат. Ценности представляют собой долгосрочную полезность набора состояний с учетом наиболее вероятных будущих состояний, а также получаемых от них выгод. Награды бывают первичными и немедленными; ценности, с другой стороны, являются вторичными прогнозами вознаграждения. Не бывает ценностей без вознаграждений, и весь смысл вычисления значений заключается в получении дополнительных вознаграждений. Агент будет искать действия, которые приведут к состояниям наивысшей ценности.
Модель среды - Модель среды - еще один важный компонент некоторых систем обучения с подкреплением. Это то, что воспроизводит поведение окружающей среды и делает предположения о том, как она будет себя вести. Эта модель поможет агенту спрогнозировать следующее вознаграждение, если действие будет выполнено, позволяя агенту основывать текущее варианты действий в отношении будущих реакций окружающей среды.

Реальные приложения обучения с подкреплением

Самоуправляемые автомобили- Некоторые из автономных действий вождения, при которых может использоваться обучение с подкреплением, - это оптимизация траектории, планирование движения , динамическое определение пути, оптимизация контроллеров и политики обучения на основе сценариев для автомагистралей. Например, изучение правил автоматической парковки может помочь при парковке транспортных средств. Q-Learning может использоваться для смены полосы движения, а обгон может осуществляться путем изучения стратегии обгона, избегая столкновений и сохраняя после этого постоянную скорость.
Отраслевое усиление. Обучающиеся роботы используются для выполнения различных задач по отраслевому усилению. Помимо того, что эти роботы более эффективны, чем люди, они также способны выполнять действия, опасные для человека. Использование AI-агентов для охлаждения центров обработки данных Google компании Deepmind является фантастическим примером. Это привело к сокращению энергозатрат на 40%. В настоящее время система искусственного интеллекта полностью контролирует центры обработки данных без вмешательства человека. Специалисты центров обработки данных определенно по-прежнему несут ответственность за надзор.
Торговля и финансы. Прогнозирование будущих продаж и цен на акции может выполняться с помощью моделей контролируемых временных рядов. Эти модели не говорят вам, что делать при определенной цене акций. Войдите в обучение с подкреплением (RL). Агент RL может решить, сохранить ли, купить или продать акции. Чтобы убедиться, что модель RL работает должным образом, она оценивается с использованием рыночных стандартов.
Engineering Frontier- В области инженерии Facebook создал Horizon, платформу обучения с подкреплением с открытым исходным кодом . Обучение с подкреплением используется для оптимизации крупномасштабных производственных процессов на платформе. Horizon используется Facebook для внутренних целей, чтобы делать предложения более персонализированными, предоставлять пользователям более значимые уведомления и улучшать качество потокового видео.
Рекомендация новостей - Поскольку предпочтения пользователей часто меняются, предложение новостей людям на основе оценок и лайков может быстро устареть. С помощью обучения с подкреплением система может отслеживать поведение читателя в ответ. Для построения такой системы потребуется сбор функций новостей, функций чтения, функций контекста и функций чтения новостей. Содержание, заголовок и издатель - вот несколько примеров функций новостей. Взаимодействие читателя с контентом, такое как клики и репосты, называется функциями читателя. Элементы новостей, такие как время и свежесть новостей, являются примерами функций контекста. После этого определяется вознаграждение в зависимости от действий пользователя.

Обучение с подкреплением, несомненно, является передовой технологией, способной изменить мир. Это, по-видимому, самый реалистичный способ сделать машину творческой - в конце концов, открытие новых, инновационных методов выполнения задач - это что такое творчество. Это уже происходит: известный ныне AlphaGo компании DeepMind делал ходы, которые человеческие эксперты сначала считали ошибками, но выиграл у Ли Седола, одного из лучших люди-игроки.

В результате обучение с подкреплением может стать революционной технологией и следующей вехой в развитии искусственного интеллекта.

Обучение с подкреплением в ИИ

Что такое обучение с подкреплением?

Как работает обучение с подкреплением?

Реальные приложения обучения с подкреплением

Вопросы по теме