Документ: САМОИНСТРУКЦИЯ: выравнивание языковой модели с самогенерируемыми инструкциями, https://arxiv.org/abs/2212.10560
===========================================================
Предыстория и введение
Настройка инструкций LLM (большая языковая модель) оказалась полезной для того, чтобы направлять LLM для выполнения задач нулевого выстрела при получении подсказок. Однако такие существующие методы в значительной степени полагаются на аннотированные человеком данные инструкций, которые не только дороги, но и ограничены в своем разнообразии. Это ограничило универсальность применения LLM с настройкой инструкций для большего количества задач.
В документе представлена структура генерации данных инструкций, называемая самостоятельным обучением, для обогащения набора данных инструкций путем итеративной загрузки из собственных поколений модели. Это почти без аннотаций, а также может обеспечить большее разнообразие данных инструкций.
Метод
Данные Instruction содержат набор инструкций, каждая из которых определяет конкретную задачу. Каждая задача инструкции также имеет более одного экземпляра с примерами входных и выходных данных.
Весь конвейер генерации данных инструкций можно рассматривать как итеративно выполняющий 4 этапа:
- Создание инструкций. Каждый раз выборка 8 инструкций из пула инструкций в качестве подсказки LLM для создания новых инструкций. Пул инструкций инициируется небольшим набором начальных инструкций.
- Идентификация задачи классификации. Предложите LLM классифицировать, являются ли задачи проблемой классификации или нет
- Создание экземпляра. Предложите LLM сгенерировать пример ввода и вывода для вновь созданных инструкций.
- Фильтрация и постобработка. На этом шаге будут оцениваться данные инструкций, сгенерированные на предыдущих 3 шагах, очистка и добавление в пул задач инструкций перед следующим этапом этого итеративного процесса. Для поощрения разнообразия новая инструкция добавляется в пул задач только тогда, когда ее перекрытие ROUGE-L с любой существующей инструкцией составляет менее 0,7.
Ограничения этой платформы
- Феномен хвоста. Улучшения следуют за распределением учебного корпуса LLM. Большой выигрыш смещен в сторону задач или инструкций, которые часто встречаются в данных перед обучением, в то время как меньший выигрыш в нечастых инструкциях.
- Зависимость от больших моделей. Работает только для LLM, а не для небольших языковых моделей.
- Усиление предвзятости LM. Усиливающиеся предубеждения, унаследованные от LLM. Производимые метки следуют предыдущим предубеждениям режимов, например. несбалансированные метки.
===============================================================