Коллекция исследовательских работ и наборов инструментов с открытым исходным кодом для оптимизации основных строительных блоков разработки приложений с помощью базовых моделей.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 150 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Это вторая часть эссе, анализирующего недавние LMOps Microsoft с открытым исходным кодом, исследовательскую инициативу, направленную на продвижение разработки реальных приложений с использованием базовых моделей. Текущая версия LMOps основана на серии исследовательских работ, в которых описываются ключевые строительные блоки приложений с использованием базовых моделей. «В первой части этой статьи мы обсуждали работы, связанные с автоматической оптимизацией подсказок и обработкой длинных последовательностей подсказок. Сегодня мы хотели бы обсудить другие документы, представленные в текущем выпуске LMOps.

X-запрос

Недавние исследования показали, что по мере того, как языковые модели (ЯМ) становятся больше, они становятся более способными к обучению в контексте. Это привело к появлению новой возможности, которая позволяет инструктировать большие LM во время выполнения с помощью описательных подсказок на естественном языке для решения конкретных задач с высокой надежностью вне дистрибутива. Этот подход показал многообещающие результаты в условиях обучения с нулевым и малым количеством выстрелов. Однако у этого метода есть ограничения, особенно когда речь идет о задачах, требующих детальных спецификаций, не поддающихся описанию. Может быть трудно придумать описательную подсказку, которая охватывает все необходимое.

Чтобы преодолеть это ограничение, Microsoft Research предложила новый подход под названием eXtensible Prompt (X-Prompt). Вдохновленный недавними исследованиями, X-Prompt представляет словарь воображаемых слов, которые можно использовать для представления вещей, которые трудно описать с помощью естественного языка. Это обеспечивает расширяемый интерфейс для расширения описательных возможностей подсказок. Например, воображаемое слово может быть введено для представления языкового стиля конкретного человека и объединено с различными контекстами подсказок, чтобы указать LM генерировать указанный контент на языке этого человека.

Чтобы убедиться, что воображаемые слова могут быть использованы вне распространения, исследователи предлагают контекстно-управляемое обучение с быстрым дополнением. Этот подход помогает выучить воображаемые слова таким образом, чтобы их можно было использовать в самых разных контекстах.

Microsoft Research провела эксперименты для проверки подхода X-Prompt, сосредоточив внимание на настройке стиля в качестве примера. Результаты показали, что X-Prompt обладает мощными описательными возможностями и высокой надежностью вне дистрибутива, что делает его многообещающим интерфейсом для расширенного взаимодействия между людьми и большими LM. Этот подход сочетает в себе сильные стороны естественного языка и мягких подсказок, предлагая гибкий и расширяемый инструмент для работы с языковыми моделями.

X-Prompt представляет расширяемый словарь воображаемых слов, что позволяет гибко и легко расширять описательные возможности подсказки для точных спецификаций, которые не могут быть описаны словами. Воображаемые слова являются дополнением к словарному запасу естественного языка и могут помочь представить вещи, которые трудно описать на естественном языке. Например, воображаемое слово может представлять стиль конкретного человека, позволяя X-Prompt настраивать генерацию языка с подробными спецификациями.

Чтобы убедиться, что воображаемые слова имеют общее удобство использования для надежных X-Prompts вне распространения, исследователи предлагают контекстно-управляемое обучение с подсказками. Этот подход направляет воображаемые слова к их предполагаемому представлению на основе данных обучения ID с переобучением.

Благодаря расширяемому словарю воображаемых слов X-Prompt возможности тонкой настройки языковых моделей безграничны. Это захватывающая разработка, которая приближает нас на один шаг к продвинутому взаимодействию человека и LM.

Непрерывное обучение и LLM

В статье Почему GPT может учиться в контексте? Языковые модели тайно выполняют точную настройку как метаоптимизаторы, Microsoft Research дает более глубокое объяснение роли контекстного обучения в LLM.

Недавно языковые модели продемонстрировали невероятную способность к контекстному обучению (ICL). Предоставляя несколько демонстрационных пар «ввод-метка», эти модели могут предсказывать метку для невидимых входов без дополнительных обновлений параметров. Несмотря на эту впечатляющую производительность, рабочий механизм ICL остается загадкой. Чтобы лучше понять, как работает ICL, исследователи применили новый подход.

В своей статье Microsoft Research объясняет языковые модели как метаоптимизаторы и понимает ICL как своего рода неявную тонкую настройку. Ключевая идея заключается в том, что внимание Transformer имеет двойную форму оптимизации на основе градиентного спуска. Microsoft предлагает использовать предварительно обученную модель GPT в качестве метаоптимизатора и создавать метаградиенты в соответствии с демонстрационными примерами. Затем эти метаградиенты применяются к исходной языковой модели, уделяя внимание построению модели ICL.

Чтобы предоставить эмпирические доказательства в поддержку этого понимания, исследователи провели эксперименты над реальными задачами. Они сравнили прогнозы модели, результаты внимания и оценки внимания предварительно обученных моделей GPT в настройках ICL и тонкой настройки. Как и ожидалось, поведение ICL было очень похоже на явную тонкую настройку на всех уровнях, что предоставило убедительные доказательства обоснованности понимания исследователями того, что ICL выполняет неявную точную настройку.

В дополнение к этому исследователи попытались воспользоваться своим пониманием метаоптимизации для проектирования моделей. Они разработали внимание, основанное на импульсе, которое постоянно превосходило обычное внимание как в языковом моделировании, так и в обучении в контексте. Это поддерживает их понимание мета-оптимизации и подчеркивает ее потенциал для будущего проектирования моделей.

Таким образом, в статье Microsoft Research определяется двойная форма между вниманием Transformer и оптимизацией на основе градиентного спуска, а также объясняются языковые модели как метаоптимизаторы. Они устанавливают связь между ICL и явной тонкой настройкой и предоставляют несколько эмпирических данных, доказывающих, что ICL и явная тонкая настройка ведут себя одинаково на разных уровнях. Их понимание метаоптимизации показывает большой потенциал для помощи в разработке будущих моделей.

LMOps — это, безусловно, очень интересная исследовательская инициатива Microsoft, направленная на определение некоторых фундаментальных строительных блоков приложений на основе LLM. Надеемся, что очень скоро мы увидим реализацию этих методов с открытым исходным кодом.