[Быстрая настройка LLM] Краткий обзор статьи: САМООБУЧЕНИЕ: согласование языковой модели с самогенерируемой…

Документ: САМОИНСТРУКЦИЯ: выравнивание языковой модели с самогенерируемыми инструкциями, https://arxiv.org/abs/2212.10560

===========================================================

Предыстория и введение

Настройка инструкций LLM (большая языковая модель) оказалась полезной для того, чтобы направлять LLM для выполнения задач нулевого выстрела при получении подсказок. Однако такие существующие методы в значительной степени полагаются на аннотированные человеком данные инструкций, которые не только дороги, но и ограничены в своем разнообразии. Это ограничило универсальность применения LLM с настройкой инструкций для большего количества задач.

В документе представлена структура генерации данных инструкций, называемая самостоятельным обучением, для обогащения набора данных инструкций путем итеративной загрузки из собственных поколений модели. Это почти без аннотаций, а также может обеспечить большее разнообразие данных инструкций.

Метод

Данные Instruction содержат набор инструкций, каждая из которых определяет конкретную задачу. Каждая задача инструкции также имеет более одного экземпляра с примерами входных и выходных данных.

Весь конвейер генерации данных инструкций можно рассматривать как итеративно выполняющий 4 этапа:

Создание инструкций. Каждый раз выборка 8 инструкций из пула инструкций в качестве подсказки LLM для создания новых инструкций. Пул инструкций инициируется небольшим набором начальных инструкций.

Идентификация задачи классификации. Предложите LLM классифицировать, являются ли задачи проблемой классификации или нет

Создание экземпляра. Предложите LLM сгенерировать пример ввода и вывода для вновь созданных инструкций.

Фильтрация и постобработка. На этом шаге будут оцениваться данные инструкций, сгенерированные на предыдущих 3 шагах, очистка и добавление в пул задач инструкций перед следующим этапом этого итеративного процесса. Для поощрения разнообразия новая инструкция добавляется в пул задач только тогда, когда ее перекрытие ROUGE-L с любой существующей инструкцией составляет менее 0,7.

Ограничения этой платформы

Феномен хвоста. Улучшения следуют за распределением учебного корпуса LLM. Большой выигрыш смещен в сторону задач или инструкций, которые часто встречаются в данных перед обучением, в то время как меньший выигрыш в нечастых инструкциях.
Зависимость от больших моделей. Работает только для LLM, а не для небольших языковых моделей.
Усиление предвзятости LM. Усиливающиеся предубеждения, унаследованные от LLM. Производимые метки следуют предыдущим предубеждениям режимов, например. несбалансированные метки.

===============================================================

[Быстрая настройка LLM] Краткий обзор статьи: САМООБУЧЕНИЕ: согласование языковой модели с самогенерируемой…

Вопросы по теме