Повторные подсказки: оптимизация автоматического решения проблем для LLM

Автоматизированный вывод цепочки мыслей с помощью выборки Гиббса

Большие языковые модели (LLM) продемонстрировали поразительный прогресс в понимании естественного языка с помощью подсказок из нескольких шагов, когда модели выполняют чрезвычайно сложные задачи, увидев лишь несколько примеров, демонстрирующих, как решить данную проблему. Однако те же LLM часто спотыкаются на задачах, требующих сложной или многоступенчатой логики (например, тест Big-Bench Hard), и испытывают трудности с распространением правил или ограничений на последующие шаги. Для людей такие задачи требуют логического вывода и рассуждений. Хотя мы понимаем, что эти модели не способны ни на то, ни на другое (в человеческом смысле), исследователи из Microsoft надеются научить LLM все лучше демонстрировать эти понятия. Таким образом, Сюй и соавт. предложить «Reprompting», автоматизированный подход к быстрой оптимизации для многоэтапного решения проблем.

Предыдущие исследования с использованием инженерных подсказок показали, что предоставление LLM подсказок по цепочке мыслей (CoT) может улучшить производительность по таким параметрам, как дедукция и воспринимаемое рассуждение. Подсказка по цепочке мыслей — это метод, который позволяет большим языковым моделям решать сложные арифметические и символические логические задачи, управляя моделью с помощью промежуточных шагов (Wei et al., 2022).

Как эволюция CoT, это исследование представляет Reprompting, итеративный алгоритм выборки, который автоматически обнаруживает наиболее эффективные подсказки CoT для модели из заданного набора пар вопрос-ответ (т. е. несколько контекстных примеров). Исследование обещает повысить производительность современных LLM и перенести прибыль с одной модели на другую (Xu et al., 2023). Однако, прежде чем погрузиться в деконструкцию повторных подсказок, мы должны выделить несколько концепций, которые привели к этому новому подходу.

Подсказка о нескольких выстрелах

На практике концепция подсказок с несколькими выстрелами (т. е. обучения в контексте) проста. Предоставление примерных подсказок, содержащих вопросы и соответствующий правильный ответ, позволяет модели одновременно лучше изучить данный контекст и формулировку ответа. В результате LLM улучшают обобщение и более эффективно адаптируются к новым задачам, требуя относительно небольшого ввода и контроля по сравнению с традиционной (и часто дорогостоящей) тонкой настройкой (т. Е. Дополнительным обучением модели под наблюдением).

Стандартный LLM предварительно обучен для оптимизации вероятности создания правильного следующего токена (слова или подслова) в последовательности с учетом контекста (Brown et al., 2020). Как правило, модель изучает приблизительное распределение вероятностейP(y|x)следующего маркера y в контексте x.

Кроме того, модель может быть обусловлена токенизированной последовательностью, содержащей примеры пар вопросов и ответов. Затем во время логического вывода модель использует изученные параметры θ для создания выходной последовательности токенов y*, обуславливая дополнительный контекст из экземпляра Exmp:

P(y_t | y_1, …, y_(t-1), Exmp; θ)

где y_t — распределение вероятностей для t-го токена в выходных данных, обусловленное ранее сгенерированными токенами (y_1, …, y_(t-1)) и последовательность образцов (Exmp). Как правило, при выводе авторегрессионные преобразователи выбирают токен y_t из распределения на каждом шаге, и процесс повторяется (токен за токеном), пока модель не сгенерирует токен остановки или не достигнет предопределенного максимального выхода. length, что приводит к сгенерированному ответу, который должен применять контекст и ограничения, полученные из предоставленных примеров. (Вэй и др., 2022; Васвани и др., 2017; Сюй и др., 2023).

Подсказка по цепочке мыслей

Подсказка с цепочкой размышлений развивает идею подсказки из нескольких шагов, концентрируясь на задачах, требующих многоэтапной логики, направляя модель к последовательности промежуточных логических шагов. Этот подход имитирует человеческое решение проблем и, в некотором роде, здравый смысл (Wei et al., 2022). Например, каждый сгенерированный токен y_t теперь разрешается стать частью более крупной формулировки, необходимой для правильного ответа. Это позволяет модели более эффективно решать данную и подобные ей задачи. Упрощенная формулировка вывода с применением CoT дается следующим образом:

P(y_t | y_1, …, y_(t-1), {Exmp_1, Exmp_2, …, Exmp_N}; θ)

где модель генерирует токен y_t, также обусловливая конкатенированные последовательности токенов образцов {Exmp_1, Exmp_2, …, Exmp_N}, каждая из которых содержит отдельные промежуточные шаги (как показано).

Повторный запрос

В этом контексте мы можем обсудить предлагаемый Reprompting, итеративный алгоритм выборки, который автоматически обнаруживает эффективные CoT-подсказки без вмешательства человека. Основная цель алгоритма состоит в том, чтобы вывести набор «рецептов», которые постоянно работают хорошо, как несколько примеров для решения проблем, которые обычно требуют дедуктивных рассуждений.

Исследователи в первую очередь сосредоточены на проблеме повторной выборки из совместного распределения рецептов цепочки размышлений. Помните, что при выводе модель выбирает следующий токен y_t из распределения вероятностей на каждом шаге, пока не достигнет условия остановки. Однако с CoT модель теперь производит выборку из совместного распределения вероятностей, которое объединяет изученные вероятности и контекстуальную информацию, предоставленную CoT. Хотя это распределение невозможно охарактеризовать напрямую, исследователи используют стратегию выборки Гиббса для его эффективной аппроксимации (Wei et al., 2022). Таким образом, на процесс выборки теперь могут влиять как ранее сгенерированные токены, так и подсказки, предназначенные для управления последующим созданием токенов. С каждой итерацией алгоритм оптимизирует решения из обучающего набора, которые служат эффективными рецептами CoT для решения задач тестового набора.

Кратко о выборке Гиббса

Семплер Гиббса (представленный в 1984 г.) обеспечивает альтернативный подход к получению предельных характеристик распределения (например, среднего или дисперсии), когда прямые вычисления сложны. Например, для заданного совместного распределения f(x, y, …, y_n) вместо прямого вычисленияf(x) сэмплер Гиббса генерирует выборку из f(x)не требуя его явной формы. После создания достаточно большой выборки стратегия Гиббса может аппроксимировать предельное распределение без прямого вычисления f(x) (Casella & George, 1992).

Автоматическое обнаружение рецептов CoT

Повторная подсказка использует выборку Гиббса для аппроксимации совместного распределения рецептов CoT, которые хорошо работают в задачах, требующих логического вывода при решении людьми. Процесс сначала отбирает рецепты с помощью подсказки с нулевым выстрелом, а затем итеративно отбирает рецепты, объединяя несколько предыдущих рецептов в качестве подсказки, в конечном итоге сходясь в набор рецептов, которые имеют схожие цепочки мыслей и будут включать промежуточные инструкции или пошаговые инструкции. постановка задачи. Сюй и др. охарактеризовать алгоритм следующим образом:

В идеале алгоритм должен сходиться таким образом, чтобы вероятность генерации пошагового решения z_j с последующим правильным ответом y_j была высокой и не зависела от выбора из S_j; где S_j — подмножество индексов, выбранных для соответствия набору рецептов CoT {x_i, z_i, y_i}.

pLLM(z_j, y_j | {x_i, z_i, y_i}_i ∈ S_j, x_j, m)

Это приведет к набору {z_j}, который работает как подсказки для решения аналогичных задач в тестовом наборе (Xu et al., 2023).

Объединение моделей

Кроме того, Reprompting облегчает объединение моделей за счет использования различных LLM для инициализации и выборки. Эмпирически использование ChatGPT для создания начальных образцов рецептов для InstructGPT привело к значительному улучшению по сравнению с использованием только InstructGPT или ChatGPT для конкретных задач. Однако результаты также показали, что производительные рецепты CoT для одной модели могут плохо работать на другой, несмотря на то, что последняя достигает аналогичной производительности с использованием подсказок, оптимизированных для человека. Это говорит о том, что рецепты CoT должны быть составлены с учетом комбинаций моделей.

Результаты сравнения

Сравнение производительности повторных подсказок с предыдущими современными методами подсказок подтверждает, что при использовании повторных подсказок LLM могут достичь более высокой производительности (без вмешательства человека) по сравнению с существующими подсказками по цепочке мыслей. Например, Reprompting в сочетании с ChatGPT часто дает более высокие баллы по всем задачам по сравнению с написанными человеком CoT-подсказками (Suzgun et al., 2022).

На практике мы можем наблюдать эволюцию рецептов CoT посредством Reprompting следующим образом:

Изначально ChatGPT отдает приоритет ограничениям, ориентируясь в первую очередь на абсолютные позиции в рейтинге (выделены темно-синим цветом). Затем модель пытается определить объекты в определенных позициях, но делает ошибку (выделено красным). Тем не менее рецепт по-прежнему обеспечивает полезную стратегию для решения подобных проблем. Применительно к новой проблеме модель использует ту же стратегию переупорядочивания и предлагает альтернативный метод обработки ограничений (выделен оранжевым цветом). Несмотря на некоторые ошибки, этот рецепт улучшает решение этой конкретной проблемы. Наконец, при использовании в качестве новой подсказки модель следует той же формуле и правильно выводит ответ для новой задачи.

Введение Reprompting, вероятно, знаменует собой еще одну веху в разработке больших языковых моделей, особенно для задач, требующих многоэтапной логики и распространения ограничений. Используя подсказки по цепочке мыслей и выборку Гиббса, Reprompting может автоматически обнаруживать эффективные подсказки CoT без вмешательства человека. В результате LLM могут добиться более высокой производительности при выполнении сложных задач по сравнению с нулевыми или традиционными методами подсказок с несколькими шагами. Кроме того, с оптимизацией Reprompting продемонстрировал возможность передачи прибыли между разными LLM. В конечном счете, этот подход может приблизить нас к цели достижения LLM, которые демонстрируют человеческую логическую дедукцию и подобие рассуждений.