Документ: САМОИНСТРУКЦИЯ: выравнивание языковой модели с самогенерируемыми инструкциями, https://arxiv.org/abs/2212.10560

===========================================================

Предыстория и введение

Настройка инструкций LLM (большая языковая модель) оказалась полезной для того, чтобы направлять LLM для выполнения задач нулевого выстрела при получении подсказок. Однако такие существующие методы в значительной степени полагаются на аннотированные человеком данные инструкций, которые не только дороги, но и ограничены в своем разнообразии. Это ограничило универсальность применения LLM с настройкой инструкций для большего количества задач.

В документе представлена ​​структура генерации данных инструкций, называемая самостоятельным обучением, для обогащения набора данных инструкций путем итеративной загрузки из собственных поколений модели. Это почти без аннотаций, а также может обеспечить большее разнообразие данных инструкций.

Метод

Данные Instruction содержат набор инструкций, каждая из которых определяет конкретную задачу. Каждая задача инструкции также имеет более одного экземпляра с примерами входных и выходных данных.

Весь конвейер генерации данных инструкций можно рассматривать как итеративно выполняющий 4 этапа:

  • Создание инструкций. Каждый раз выборка 8 инструкций из пула инструкций в качестве подсказки LLM для создания новых инструкций. Пул инструкций инициируется небольшим набором начальных инструкций.

  • Идентификация задачи классификации. Предложите LLM классифицировать, являются ли задачи проблемой классификации или нет

  • Создание экземпляра. Предложите LLM сгенерировать пример ввода и вывода для вновь созданных инструкций.

  • Фильтрация и постобработка. На этом шаге будут оцениваться данные инструкций, сгенерированные на предыдущих 3 шагах, очистка и добавление в пул задач инструкций перед следующим этапом этого итеративного процесса. Для поощрения разнообразия новая инструкция добавляется в пул задач только тогда, когда ее перекрытие ROUGE-L с любой существующей инструкцией составляет менее 0,7.

Ограничения этой платформы

  • Феномен хвоста. Улучшения следуют за распределением учебного корпуса LLM. Большой выигрыш смещен в сторону задач или инструкций, которые часто встречаются в данных перед обучением, в то время как меньший выигрыш в нечастых инструкциях.
  • Зависимость от больших моделей. Работает только для LLM, а не для небольших языковых моделей.
  • Усиление предвзятости LM. Усиливающиеся предубеждения, унаследованные от LLM. Производимые метки следуют предыдущим предубеждениям режимов, например. несбалансированные метки.

===============================================================