Большие языковые модели (LLM) стали краеугольным камнем в эпоху современного глубокого обучения, демонстрируя впечатляющую способность обрабатывать сложные логические задачи. Их способность взаимодействовать с людьми через интуитивно понятные интерфейсы чата привела к их широкому распространению в качестве чат-ботов среди населения в целом.

Однако многие существующие LLM требуют обширной тонкой настройки для согласования с человеческими предпочтениями, процесс, который может быть как дорогостоящим в вычислительном отношении, так и требовать значительных ручных усилий. Кроме того, этот процесс часто непрозрачен и нелегко воспроизводим, что препятствует прогрессу в исследованиях выравнивания ИИ.

Для решения этих проблем исследовательская группа из Meta AI представляет Llama 2 и Llama 2-Chat с открытым исходным кодом в новой статье «Llama 2: Open Foundation and Fine-Tuned Chat Model». Первая представляет собой набор предварительно обученных и точно настроенных LLM, а вторая представляет собой оптимизированную для диалогов версию Llama 2. Важно отметить, что обе модели имеют открытый исходный код с лицензией, разрешающей коммерческое использование, что знаменует собой значительный шаг в направлении повышения прозрачности и содействие развитию более ответственных, воспроизводимых LLM.

И Llama 2, и Llama 2-Chat имеют варианты с параметрами 7B, 13B и 70B. Сначала команда использует оптимизированный авторегрессионный преобразователь с некоторыми модификациями для предварительной подготовки. В частности, по сравнению с Llama 1 они выполнили более надежную очистку данных, обновили наборы данных, обучили на 40% больше токенов, удвоили длину контекста, а также использовали внимание к сгруппированным запросам (GQA) для улучшения масштабируемости вывода.

Учебный корпус Llama 2 состоит из смешанных данных из общедоступных ресурсов и не включает данные, относящиеся к продуктам или услугам Meta. Llama 2 использует большинство настроек предварительной подготовки и архитектуру модели из Llama 1, включая стандартную архитектуру Transformer, предварительную нормализацию с помощью RMSNorm, функцию активации SwiGLU и…