Обзор подсказок по цепочке мыслей для больших языковых моделей

С быстрым технологическим развитием инструментов языкового моделирования важно знать, как их использовать, и еще важнее знать, как полностью раскрыть их потенциал.

TL;DR

Большие языковые модели, хотя и широко применимы и достаточно эффективны, не обладают высокой производительностью при решении таких логических задач, как арифметика и рассуждение на основе здравого смысла. Новый метод под названием подсказка по цепочке размышлений привел к значительному повышению производительности модели при выполнении таких логических задач. Этот метод включает предоставление примеров решения проблем с промежуточными этапами рассуждения внутри подсказки. Наблюдается, что после подсказки с примерами цепочки мыслей эти модели естественным образом выводят шаги рассуждения вместе с ответом. Подсказки по цепочке мыслей не только значительно превосходят стандартные методы подсказок с точки зрения производительности, но также дают самые современные результаты с одной большой языковой моделью без необходимости тонкой настройки. Эти результаты открывают двери для новых исследований в области обработки естественного языка и обеспечивают основу для нового подхода к взаимодействию с большими языковыми моделями.

Исходный документ, на котором основана эта статья, Цепочка мыслей, вызывающая рассуждения в больших языковых моделях, автор Wei et. al., был опубликован в октябре 2022 г. в рамках конференции NeurIPS 2022, с ним можно ознакомиться здесь: https://arxiv.org/pdf/2201.11903.pdf

Фон

Модели больших языков, такие как GPT-3 и BERT, быстро завоевали мир штурмом, применяя самые разные приложения: от финансов до программного обеспечения, наук о жизни и многого другого. Но что это такое и почему они так важны? Модель большого языка (LLM) – это модель машинного обучения, в которой для моделирования человеческого языка используется глубокая нейронная сеть. Как правило, они имеют количество параметров порядка миллиардов и более и обучаются на огромных объемах человеческого текста. Эти модели способны отражать большую часть сложного синтаксиса и семантики человеческого языка. Из-за огромного количества данных, которые используются для их обучения, LLM также содержат большое количество информации о мире. Это позволяет отвечать на запросы практически по любой теме с помощью сгенерированного человеком текста. Это свойство допускает бесчисленное множество приложений и определяет возможности LLM общего назначения.

Способности LLM могут быть расширены с помощью концепции, называемой оперативная разработка. Это включает в себя тщательное построение запроса, который затем передается LLM для повышения производительности. Обычно в запрос встраивается описание задачи, которую нужно выполнить. Эти подсказки могут помочь курировать ответы LLM, обучая его производить более актуальные и точные результаты. Например, если компания хотела создать чат-бота для ответов на вопросы клиентов, можно было бы использовать оперативное проектирование для усовершенствования LLM, чтобы предоставить более краткую и актуальную информацию, касающуюся продуктов компании, политики и многого другого.

Но LLM не всегда правильны или точны. Поскольку LLM работает, генерируя следующее наиболее вероятное слово одно за другим, понятие рассуждения отсутствует. Это может привести к ошибкам, когда модель выводит дезинформацию, как в случае неправильного ответа на вопрос, так и в случае предоставления ответов на нелогичные вопросы.

Эти ошибки, очевидно, являются проблемой при попытке использовать LLM для любых задач с последствиями. Как можно доверять этим моделям для развертывания в реальном мире, не обладая чувством рассуждений?

Именно здесь в игру вступает последовательность мыслей, предложенная исследователями из Google¹. Используя подсказки, которые включают несколько примеров рассуждений, производительность LMM может быть значительно повышена при низких затратах.

Метод подсказки по цепочке мыслей

Подход к оперативному инжинирингу, основанный на цепочке размышлений, относительно прост. Цепь размышленийможно определить как серию промежуточных шагов рассуждения, ведущих к окончательному ответу. Например, цепочка размышлений для решения арифметической задачи будет состоять из всех отдельных вычислений, которые необходимо выполнить, чтобы получить ответ.

В стандартной разработке подсказок подсказка будет включать пример как ввода, так и правильного вывода для этого ввода. В цепочке подсказок подсказка содержит еще одну часть — цепочку мыслей. Каждая подсказка состоит из троек в форме: ‹ввод, цепочка мыслей, вывод›.

Это простое изменение в подсказках помогает модели имитировать рассуждения, которые, возможно, являются наиболее важным шагом в решении проблем. Как видно из приведенного выше примера, после предоставления подсказки с включенной цепочкой мыслей он корректирует свое поведение и выводит ответ с шагами рассуждения.

С точки зрения применимости нет предела. Эту технику подсказок можно использовать (и она доказала свою эффективность) в таких задачах, как арифметические задачи, вопросы на здравый смысл и символические рассуждения. В принципе, если задачу можно решить с помощью рассуждений на человеческом языке, подсказка по цепочке мыслей может помочь решить ее.

Полученные результаты

В работе Wei et. al.¹, полезность подсказок по цепочке мыслей проверяется в областях арифметических рассуждений, рассуждений на основе здравого смысла и символических рассуждений. В этой статье основное внимание будет уделено арифметическим результатам статьи.

Арифметические рассуждения

Подсказки по цепочке мыслей были протестированы с различными LLM с разными размерами параметров на нескольких тестах, включая тест GSM8K для математических задач со словами², набор данных SVAMP для математических задач со словами с различной структурой³ и тест MAWPS⁴. Для базовых тестов перед оценкой тестового экземпляра выполнялись стандартные подсказки с парами ввода-вывода в контексте. Цепочка мыслительных подсказок была составлена вручную, чтобы включить промежуточные этапы рассуждений перед оценкой экземпляра тестирования. Используемые LLM включали LaMDA, GPT-3 и PaLM с различными размерами параметров для каждого.

На приведенном выше графике показаны результаты двух методов подсказок при тестировании на разных эталонных тестах в различных конфигурациях LLM. Подсказка по цепочке мыслей не только превосходит стандартную подсказку во многих из этих случаев, но и во многих случаях превосходит предыдущий лучший результат. Это показывает, что достаточно большая языковая модель, использующая подсказку по цепочке мыслей, может работать лучше, чем ранее совершенные точно настроенные модели.

Работа Wei et al.¹ также проверялась на задачах рассуждения на основе здравого смысла и символического рассуждения. К ним относятся такие задачи, как понимание даты и спортивное правдоподобие для рассуждений на основе здравого смысла, а также сценарии конкатенации букв и подбрасывания монеты для символических рассуждений. Обе эти области рассуждений имели значительные улучшения, которые были аналогичны разделу арифметических рассуждений при сравнении подсказок по цепочке мыслей со стандартными подсказками. Именно по этой причине они не рассматриваются в данной статье.

Важно отметить появление лучшей производительности по отношению к размеру LLM. Обратите внимание, как на представленном рисунке производительность обычно резко возрастает и превосходит стандартные подсказки с большим отрывом, когда число параметров достигает сотен миллиардов. Это означает, что цепочка подсказок связана с эмерджентными свойствами. Эмерджентное свойство — это способность или явление, которое проявляется по мере увеличения масштаба LLM. Это оставляет нас перед важным вопросом: Какими дополнительными возможностями будут обладать LLM, поскольку их размеры продолжают увеличиваться?

Обсуждение

Ясно, что последовательность мыслительных подсказок позволяет LLM достигать новых высот с точки зрения надежной работы. Появление этого метода только открывает новые двери в области исследований обработки естественного языка. Новые области исследований могут исследовать следующие вопросы:

Как можно формализовать методы цепочки мыслей и как их можно оптимизировать, чтобы обеспечить еще более низкую стоимость подсказок цепочки мыслей?
Как ведет себя цепочка подсказок, когда LLM становятся больше?
Как можно сочетать подсказки по цепочке мыслей с другими методами, такими как тонкая настройка или другие методы подсказок, чтобы добиться еще более высоких результатов?

Социальное влияние этого метода подсказок также необходимо учитывать. Поскольку такая широко известная модель может обеспечить еще более высокую производительность, чем раньше, почти любое применение LLM принесет пользу. Уменьшение количества ошибок означает новый уровень надежности, и даже когда модель неверно предсказывает ответ, она часто может предоставить полезную информацию о том, где произошла ошибка, которую можно использовать для дальнейшего уточнения модели.

Метод подсказки «цепочка мыслей» может быть особенно полезен в ряде коммерческих сценариев. Компания может использовать цепочку мыслей для усовершенствования и автоматизации чат-бота для обслуживания клиентов, репетиторская служба может использовать этот метод для создания пользовательских помощников по обучению для студентов, а финансовая фирма может создать виртуального доверенного лица для клиента. Это всего лишь несколько примеров полезных приложений, которые может включить этот метод подсказок.

Конечно, есть ограничения. Поскольку производительность этого метода связана с эмерджентными свойствами, он ограничен LLM с сотнями миллиардов параметров. Это вопрос не только доступности, но и эксплуатационных расходов — количество энергии, необходимое для обучения моделей такого размера, огромно. «Рассуждающий» аспект побуждения цепочки мыслей также до сих пор неизвестен. Хотя в представленном примере модель, кажется, рассуждает, нет никакого способа узнать, как она на самом деле приходит к ответу. Это области, которые еще предстоит решить с помощью исследований языковых моделей.

В заключение, работа Wei et al.¹ предоставляет убедительные доказательства того, что подсказка по цепочке мыслей является недорогим методом для достижения современной производительности в LLM без необходимости тонкой настройки. Этот новый метод открывает двери для дальнейших исследований в области более эффективных методов подсказок и предоставляет функциональные возможности, которые значительно повлияют на использование инструментов языкового моделирования в реальном мире.