Армирование. Награды. Любопытство.

В одном из наших предыдущих обсуждений мы рассмотрели начальный этап преобразования сырой модели большого языка в диалоговый агент, такой как ChatGPT. Этот процесс начинается с имитации поведения надежного эксперта, например, отрывка диалога в книге или высококачественных данных с веб-сайта вопросов и ответов. Однако переход к созданию комплексного диалогового агента, такого как ChatGPT, требует нескольких дополнительных этапов. Прежде чем углубляться в них, важно обсудить некоторые основы и изучить некоторые открытые вопросы в области искусственного интеллекта.

Вы играли в простую видеоигру Понг? В этой игре у игроков есть всего два варианта: перемещать весло вверх или вниз. Теперь рассмотрим сценарий разработки агента, способного играть в понг на уровне, эквивалентном уровню 14-летнего подростка. К этой цели можно подойти двумя разными методами.

В первом методе во время игры фиксируется поведение эксперта, скажем, опытного подростка. Для каждого входного кадра, представленного в виде изображения игры, записывается связанное с ним действие (вверх или вниз). Впоследствии создается существенный набор данных, состоящий из множества изображений, связанных с соответствующими метками, обозначающими действие. Обучение игре в понг облегчается за счет использования этого набора данных, эффективно устанавливающего связи между входными кадрами и действиями. Этот подход, называемый контролируемым обучением, во многом зависит от качества и объема предоставляемых этикеток.

Второй подход, известный как обучение с подкреплением, зависит от некоторых предварительных условий. Изначально предполагается наличие политики — функции, предназначенной для выбора оптимальных игровых действий на основе входных изображений. Эта политика (изначально случайная) служит руководством для выбора действий — перемещения вверх или вниз — в ответ на входные изображения. Кроме того, этот подход предполагает, что игра носит эпизодический характер, кульминацией которой является конечная точка с соответствующими результатами, такими как окончательный счет (например, 10–2). В этом втором подходе агент не получает явных указаний о том, как маневрировать; скорее, он исследует различные действия, обучаясь методом проб и ошибок. В конце концов он просто узнает, выиграл ли он игру.

Второй подход требует многочисленных пробных эпизодов для обучения агента, и требуется время, прежде чем будет замечен значимый прогресс. Однако со временем этот метод может превзойти результаты эксперта (в данном случае опытного игрока-подростка) и достичь исключительных результатов без каких-либо тренировочных данных.

Несмотря на свой потенциал, второй подход не лишен проблем, помимо огромного объема необходимых испытаний. Рассмотрим ситуации, когда результативный игрок, продемонстрировав впечатляющий игровой процесс, делает пару неоптимальных ходов, приводящих к поражению и существенному отрицательному вознаграждению. Это, в свою очередь, по-другому рисует все хорошие усилия в эпизоде!

Давайте поймем это глубоко. Вы когда-нибудь оказывались в ситуации, когда после многих лет крови, пота и слез в проект что-то тривиальное в конце концов идет не так и выставляет вас в плохом свете? Были ли вы когда-нибудь в обратной ситуации, когда вас сильно хвалили за что-то тривиальное, на выполнение которого у вас ушел буквально час? Это несоответствие возникает из-за сложного характера оценки усилий и результатов. В области обучения с подкреплением это называется проблемой присвоения кредитов, самой важной практической проблемой в этой области.

Берем пример из реального мира. В управленческих кругах вы, возможно, слышали поговорку вознаграждайте за усилия, а не за результат, чтобы правильно мотивировать своих сотрудников. Это потому, что сказать гораздо сложнее, чем сделать. Вознаграждение за усилия требует пристального внимания к деталям и опыта, который часто превосходит проницательность, которой обладает большинство из нас. Это верно для людей и, следовательно, верно для проявления алгоритмов, которые мы разрабатываем. Вы можете найти несколько очень забавных видеороликов, в которых роботы научились обыгрывать систему вознаграждений, чтобы научиться чему-то смешному. Честно говоря, люди тоже это делают.

Чтобы решить проблему присвоения кредитов в краткосрочной перспективе, специалисты-практики используют метод, известный как формирование вознаграждения. Этот метод влечет за собой уточнение функции вознаграждения за счет более глубокого понимания динамики игры. Это уточнение включает более сложные математические уравнения, позволяющие более полно представить понятие усилия. Наглядную иллюстрацию этой концепции можно наблюдать в нашем примере с понгом, где такие переменные, как разница в победе или поражении, приобретают сопоставимое значение с самим актом победы.

В таких сценариях, как технические собеседования, комитеты по найму часто подчеркивают дублирующую обратную связь, игнорируя при этом посторонние мнения. Тем не менее, формирование вознаграждения, хотя и прагматичное, остается запутанным приемом. Формирование вознаграждений не учитывает тот факт, что структура вознаграждений имеет тенденцию развиваться медленнее, чем динамика игры, включающая множество опытных игроков, окружающий контекст или способность агентов использовать лазейки в вознаграждениях.

Обширная научная литература и годы исследований предлагают постепенно совершенствующиеся стратегии решения этой проблемы. Ниже я выделю суть этих подходов.

Лично я презираю книги по самосовершенствованию и присущие им эмоциональные манипуляции. Тем не менее, одна подкатегория этих книг выделяется для меня — книги «почему».

Виктор Франкл, опираясь на свой опыт выживания в концентрационном лагере во время Второй мировой войны, красноречиво отражает суть стойкости и целеустремленности в своей плодотворной работе Человек в поисках смысла. Франкл метко цитирует Ницше, подчеркивая идею о том, что Тот, кто у него есть зачем жить, он может вынести почти любое «как. Эта концепция находит отклик и в современной литературе. Такие произведения, как Начни с «Почему» и Тонкое искусство пофигизма — это современная интерпретация этой глубокой идеи.

Наши стремления часто направлены на внешние награды — большее признание, более высокие оценки, увеличение благосостояния — однако неспособность достичь этих целей или необоснованное чувство привилегий являются источниками наших страданий. Однако нас поддерживает внутренняя мотивация и чувство личного вознаграждения. Это включает в себя удовлетворение от хорошо выполненной работы, стремление к знаниям (причина, по которой вы читаете эту статью), постепенное продвижение внутреннего спокойствия, прямое противостояние трудностям, не уступая, сохранение искренности во время сложных разговоров, не ставить под угрозу свои идеалы в отношении легкая победа и преодоление этой ежедневной вехи, какой бы маленькой она ни была. Аналогичным образом, некоторые из лучших алгоритмов подкрепления разработаны для моделирования внутренней мотивации, превращая неудачи в переживания, побуждая агента просто из любопытства уменьшить количество сюрпризов окружающей среды.

Следовательно, что бы ни говорил счетчик вознаграждения общества, наш личный компас всегда может вознаградить наши усилия, направленные на наше личное «почему». Это позволяет вам «быть самим собой» каждый божий день.

Теперь, когда мы понимаем основные проблемы моделирования вознаграждений, в следующем эссе мы поймем, как ChatGPT пытается выйти за рамки экспертов, которые помогли загрузить его.