От шахмат до больших языковых моделей обучение с подкреплением — это важнейшая парадигма искусственного интеллекта, направленная на обучение компьютеров посредством исследования и «игры». Давайте посмотрим, как это работает и как вы можете начать.

На дворе начало 90-х, и я, как дитя того времени, брожу по своему святому месту, своему храму — местному видеомагазину.

Задолго до появления потокового и интернет-медиаконтента видеомагазин был стартовой площадкой для детского воображения. Ряды и ряды чистой магии, заключенные в химически обработанные пластиковые коробки, которые в совокупности дали запах, который был уникальным для вашего местного видеомагазина.

Запах экшена, приключения и удовольствия по низкой цене 2 доллара за ночь или 3 доллара в неделю (новые версии — 5 долларов за ночь). !).

Именно в этом священном месте я впервые наткнулся на классический фильм 1983 года «Военные игры». В главной роли Мэтью Бродерик в роли упорного технически подкованного подростка 80-х, который взламывает компьютерные системы того же 80-х только для того, чтобы наткнуться на WOPR (он же «Джошуа») — компьютер, который может думать, рассуждать, говорить и — самое главное — играть в игры, как человек.

Если вы не смотрели фильм, я оставлю вам остальное для изучения, но с уверенностью можно сказать, что самое интересное начинается, когда вы понимаете, что WOPR не только играет в такие игры, как шахматы и покер, но и глобальную термоядерную войну.

Этот фильм захватил мое воображение, компьютер, который мог думать, который учился, играя в игры и совершенствуясь! Я только много лет спустя понял, что «Военные игры» — это мягкое — возможно, случайное — введение в концепцию обучения с подкреплением (RL). В следующей части мы рассмотрим базовую концепцию обучения с подкреплением, проведем некоторые из наших собственных экспериментов с использованием Python и завершим некоторыми предложениями о том, как войти в веселый (и захватывающий) мир конкурентного обучения с подкреплением!

Что такое обучение с подкреплением?