Большие языковые модели и плохое поведение

Большие языковые модели (LLM) — невероятно мощные инструменты, которые могут генерировать текст на основе огромного количества обучающих данных. Однако, как и в случае с языком в целом, LLM также могут вести себя плохо. Они могут создавать токсичный, агрессивный или даже опасный текст. Чтобы убедиться, что LLM соответствуют человеческим ценностям, важно сосредоточиться на таких качествах, как готовность помочь, честность и безвредность (HHH).

Обучение с подкреплением и персонализация

Обучение с подкреплением (RL) — это тип машинного обучения, при котором агент учится принимать решения и совершать действия в среде, чтобы максимизировать совокупное вознаграждение. RL можно использовать в контексте больших языковых моделей посредством обучения с подкреплением с обратной связью с человеком (RLHF). Персонализация LLM — одно из возможных применений RLHF.

Как работает РЛХФ

В RLHF агент (наш тонко настроенный инструктирующий LLM) работает в среде, называемой контекстным окном. Требуется одно действие, которое в данном случае генерирует текст, из всех доступных действий в пространстве действий (весь словарь токенов/слов в LLM). Затем сгенерированный текст оценивается человеком и получает вознаграждение, если он соответствует цели. Отрицательные вознаграждения или никакие вознаграждения не предоставляются, если сгенерированный текст не соответствует цели. Этот итеративный процесс, известный как развертывание, направлен на корректировку весов модели, чтобы максимизировать общее вознаграждение в конце процесса.

Обучение модели вознаграждения

На практике вместо того, чтобы полагаться на непрерывную обратную связь от человека, модель классификации, называемая моделью вознаграждения, обучается на основе обучающих примеров, созданных человеком. Эта модель обеспечивает автоматизированный способ оценки сгенерированного текста и назначения вознаграждений или штрафов в зависимости от его соответствия цели.

Согласование LLM с человеческими ценностями

Обучение с подкреплением с обратной связью человека предлагает многообещающий подход к согласованию моделей большого языка с человеческими ценностями. Включая отзывы людей и обучая модель вознаграждения, LLM могут быть персонализированы и точно настроены, чтобы быть более полезными, честными и безвредными. Это гарантирует, что LLM не только генерируют текст высокого качества, но и соответствуют ценностям и ожиданиям пользователей-людей.

ПИСАТЕЛЬ на MLearning.ai // Управление ИИ-видео // Персональная модель ИИ-искусства



Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com