Предварительное обучение с человеческими предпочтениями (PHP)
Pretraining with Human Preferences (PHP)¹ более эффективна по сравнению с Fine-tuning.
Введение
Предварительное обучение с человеческими предпочтениями (PHP)¹ означает согласование языковых моделей (LM) с человеческими предпочтениями во время предварительного обучения.