Взгляните на нашего друга медведя Орсо.

Орсо живет в своей пещере и знает свой район и где обычно можно найти мед. Медовые места разбросаны по всему его дому и связаны какими-то тропинками. Некоторые соединения просты, например, прогулка по травянистому полю (светло-зеленый, очень дешевый) или лес (темно-зеленый, дешевый), немного утомительна, как переход через холм (коричневый, дороже), и очень трудна, как плавание через озеро. (синий, очень дорого стоит).

Есть и другие медведи, которые соревнуются за горшочки с медом, и иногда пчелы просто не доставляют мед, который требуется нашему медведю. Итак, в некоторых местах есть мед, а в других - нет.

[Статья по теме: Глубокое обучение с обучением с подкреплением]

Каждое утро Орсо просыпается и начинает искать меда. Но каждый день горшочки с медом оказываются на новом месте. Итак, Орсо залезает на дерево возле своей пещеры, чтобы узнать, где находится мед. Даже зная это, неясно, по какому пути ему следует идти. Быть медведем - значит быть ленивым, поэтому Орсо хочет получить как можно больше меда по минимальной цене. На каждом этапе он должен решить, куда идти дальше. Его ежедневное путешествие заканчивается, когда он возвращается в свою пещеру.

Но как лучше всего перейти от горшочка с медом к горшку с медом и в конечном итоге вернуться в свою пещеру для ленивого медведя, который хочет свести к минимуму свои усилия? Хотя вы можете решить такие проблемы программно, существует другой подход, при котором мы моделируем среду обитания медведя и проводим в ней серию контролируемых экспериментов. Используя результаты экспериментов, мы обучаем нейронную сеть, которая последовательно учится перемещать медведя по его траве. Как настоящий медведь, только с большим количеством экспериментов. Такой подход к машинному обучению называется «обучение с подкреплением».

TensorFlow 2 и Tf-Agents - две мощные библиотеки, которые помогут вам решать подобные проблемы. В то время как Tf-Agents предоставляет нам стратегии обучения с подкреплением, TensorFlow служит реализацией нейронной сети, которая узнает, какой путь лучше всего использовать. В процессе обучения данные для обучения нейронной сети генерируются в результате экспериментов, которые проводит агент - наш медведь Орсо. Это не делается с использованием грубой силы, но какой шаг будет выбран следующим, зависит от прогноза нейронной сети.

Возможно, вы уже заметили, но наш голодный медведь Орсо - просто забавный пример того, что люди делают для серьезных приложений, таких как исследования операций, робототехника или продвинутый игровой процесс. Часто существуют точные алгоритмы, но в худшем случае они имеют экспоненциальную сложность. В отличие от этого, стратегии, изучаемые с помощью обучения с подкреплением, обычно являются только приблизительными, но их сложность линейна в зависимости от размера проблемы. Таким образом, обучение с подкреплением часто может быть альтернативой, когда либо нет никакого существующего решения, либо вы хотите обменять точность на линейную сложность времени выполнения.

[Статья по теме: Смотреть: Введение в обучение с подкреплением]

Вот короткое видео минимального пути Орсо по его территории. Обратите внимание, как он избегает проблемных водоемов в пользу более длинных дорожек через травянистые земли.

В нашем Практическом обучении на полдня в ODSC West в Сан-Франциско мы покажем вам более подробную информацию о том, как можно использовать обучение с подкреплением на практике. Используя записные книжки Colab, мы будем моделировать проблемы в виде имитационной среды (мир Орсо) и обучать вашего агента (самого Орсо) изучать хорошую стратегию. Надеюсь увидеть скоро!

Подробнее о втором выступающем: Кристиан Хидбер

Кристиан - консультант bSquare, специализирующийся на машинном обучении и разработке .net. Он имеет докторскую степень по компьютерной алгебре в ETH Zurich и работал постдоком в Калифорнийском университете в Беркли, где исследовал алгоритмы интеллектуального анализа данных в Интернете. В настоящее время он применяет обучение с подкреплением для моделирования промышленной гидравлики.

Больше информации на https://www.linkedin.com/in/christian-hidber/

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.