Предварительное обучение с человеческими предпочтениями (PHP)

Pretraining with Human Preferences (PHP)¹ более эффективна по сравнению с Fine-tuning.

Введение

Предварительное обучение с человеческими предпочтениями (PHP)¹ означает согласование языковых моделей (LM) с человеческими предпочтениями во время предварительного обучения.