Познакомьтесь с Koala: модель Университета Беркли на основе LLaMA, оптимизированная с помощью диалогов ChatGPT

Модель представляет собой более легкую альтернативу ChatGPT с открытым исходным кодом и включает EasyLM, платформу для обучения и тонкой настройки LLM.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 150 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:

Последовательность | Хесус Родригес | Substack
Лучший источник информации о разработках в области машинного обучения, искусственного интеллекта и данных…thesequence.substack.com

Случайная утечка весов, связанных с LLM LLaMA от Meta AI, вызвала огромный уровень инноваций в пространстве LLM с открытым исходным кодом. После неистовой утечки мы видели, как такие модели, как Alpaca, Vicuna, ChatLlama и некоторые другие, расширяют основы LLaMA для создания инновационных диалоговых агентов, соответствующих возможностям ChatGPT. Одним из последних дополнений к списку является Коала (да, я знаю, еще одна модель с именем животного), чат-бот, созданный Berkeley AI Research (BAIR), который точно настраивает LLaMA на разговоры, собранные из Интернета.

Основная цель Koala — подчеркнуть баланс между мегакрупными LLM с закрытым исходным кодом и меньшими LLM с открытым исходным кодом. Тезис BAIR заключается в том, что меньшие модели могут достигать производительности, которая соответствует мегамоделям, таким как ChatGPT, с меньшими затратами, а также улучшаться в таких областях, как точная настройка, прозрачность и многие другие.

Коала

Koala — это версия LlaMA, оптимизированная для данных диалогов, извлеченных из Интернета и общедоступных наборов данных, включая высококачественные ответы на запросы пользователей из других крупных языковых моделей, а также наборы данных ответов на вопросы и наборы данных отзывов людей. Koala была специально обучена работе с данными о взаимодействиях, полученными из Интернета, с упором на данные, которые включают взаимодействие с высокопроизводительными моделями с закрытым исходным кодом, такими как ChatGPT. Полученная модель, Koala-13B, демонстрирует конкурентоспособную производительность по сравнению с существующими моделями, основанную на человеческой оценке реальных пользовательских подсказок.

Результаты показывают, что использование высококачественных наборов данных может преодолеть некоторые ограничения небольших моделей и даже может соответствовать возможностям больших моделей с закрытым исходным кодом в будущем. Исследовательская группа рекомендует сообществу уделять первоочередное внимание сбору высококачественных наборов данных, поскольку это может позволить создавать более безопасные, основанные на фактах и более эффективные модели, чем простое увеличение размера существующих систем.

Одним из интересных аспектов Koala были источники данных, используемые для обучения. Наборы данных для тонкой настройки включают данные, взятые из диалогов ChatGPT. Стратегия тонкой настройки включала следующие наборы данных:

· ShareGPT: около 60 000 диалогов, которыми поделились пользователи на ShareGPT, были собраны с помощью общедоступных API. Чтобы обеспечить качество данных, команда выполнила дедупликацию до уровня пользовательского запроса и удалила разговоры не на английском языке. Результирующий набор данных содержит около 30 000 примеров.

· HC3: команда использовала ответы людей и ChatGPT из набора данных HC3 English, который включает примерно 60 000 человеческих ответов и 27 000 ответов ChatGPT примерно на 24 000 вопросов. В результате получается около 87 тысяч примеров вопросов и ответов.

· OIG:использовалось подмножество компонентов из набора данных Open Instruction Generalist, курируемого LAION, в том числе школьные инструкции по математике, стихи к песням и книги со сценарием. -диалоговые наборы данных. Выбранное подмножество дает в общей сложности около 30 000 примеров.

· Стэнфордская альпака: команда включила набор данных, используемый для обучения модели Стэнфордской альпаки, который содержит около 52 000 примеров, сгенерированных OpenAI text-davinci-003 в процессе самообучения. Стоит отметить, что наборы данных HC3, OIG и Alpaca представляют собой ответы на вопросы в один ход, в то время как набор данных ShareGPT представляет собой диалоговые беседы.

· Anthropic HH: команда использовала набор данных Anthropic HH, который включает около 160 000 примеров, оцененных человеком. Каждый пример состоит из пары ответов чат-бота, один из которых предпочитают люди. Набор данных предоставляет как возможности, так и дополнительные меры безопасности для модели.

· OpenAI WebGPT.Набор данных OpenAI WebGPT включает около 20 000 сравнений, где каждый пример содержит вопрос, пару ответов модели и метаданные. Ответы оцениваются людьми с оценкой предпочтения.

· Подведение итогов OpenAI. Набор данных для обобщения OpenAI содержит около 93 000 примеров, каждый из которых состоит из отзывов людей относительно обобщений, созданных моделью. Люди-оценщики выбрали лучшее резюме из двух вариантов.

Сравнение между Koala, ChatGPT и моделями с открытым исходным кодом, такими как Alpaca, можно увидеть в следующей матрице:

EasyLM

Одним из ключевых вкладов исследования Koala стал выпуск EasyLM с открытым исходным кодом, фреймворка, используемого для точной настройки модели. Концептуально EasyLM — это решение, предназначенное для предварительной подготовки, тонкой настройки, оценки и обслуживания LLM в JAX/Flax. Используя функциональность JAX pjit, EasyLM может масштабировать обучение LLM до сотен ускорителей TPU/GPU.

EasyLM построен на основе преобразователей и наборов данных Hugginface, предоставляя удобную и настраиваемую кодовую базу для обучения больших языковых моделей без сложности многих других фреймворков. Используя утилиту JAX pjit, EasyLM может обучать большие модели, которые не подходят для одного ускорителя, путем разделения весов моделей и обучающих данных на нескольких ускорителях. В настоящее время EasyLM поддерживает обучение нескольких TPU/GPU на одном хосте, а также обучение на нескольких хостах в Google Cloud TPU Pods.

Koala, с другой стороны, обучался на одном сервере Nvidia DGX, оснащенном 8 графическими процессорами A100. Процесс обучения длился около 6 часов в течение 2 эпох. Этот тип обучения обычно стоит менее 100 долларов США на платформах общедоступных облачных вычислений с использованием вытесняемых экземпляров.

Выпуск Koala с открытым исходным кодом сопровождался онлайн-демонстрацией и кодом для предварительной обработки обучающих данных.

Koala представляет собой интересную итерацию моделей LlaMA, которая проливает свет на жизнеспособность небольших альтернатив с открытым исходным кодом для моделей, подобных ChatGPT.

Познакомьтесь с Koala: модель Университета Беркли на основе LLaMA, оптимизированная с помощью диалогов ChatGPT

Модель представляет собой более легкую альтернативу ChatGPT с открытым исходным кодом и включает EasyLM, платформу для обучения и тонкой настройки LLM.

Коала

EasyLM

Вопросы по теме