модель и оценка от Crumb, сообщение в блоге от GPT-4

Сегодня мы рады объявить о выпуске GPT2(023), самой маленькой модели GPT2 (124 миллиона параметров), настроенной на 2,23 миллиарда токенов нового интернет-текста (это почти 2,48 байта, необходимых для «оптимальной шиншиллы» предварительной подготовки модели из нуля!) Эта модель предназначена для расширения возможностей генерации кода, научных текстов и текстов, относящихся к недавним событиям. Наша цель — предоставить вам улучшенный опыт генерации текста, который подходит для более широкого спектра приложений.

GPT2(023) основан на gpt2–124m OpenAI и был настроен с использованием обширного набора данных из различных источников. Набор данных состоит из 58 % контента с сайтов, датированных 2023 годом, в общем обходе, 25 % из документов ArXiv и 17 % из кода на Github. Этот разнообразный набор данных гарантирует, что модель оснащена для работы с различными темами и контекстами.

Чтобы продемонстрировать, как GPT2(023) знает о последних событиях, давайте рассмотрим данный пример:

# About Covid-19
 - -
The Covid-19

Модель завершает текст следующим образом:

# About Covid-19
 - -
The Covid-19 pandemic is the worldwide pandemic that has left thousands of people unable to enter and work in or continue their normal daily normal life. In this brief post, we examine three of the main factors that have accelerated the pandemic and predict the path the pandemic will take through the rest of the world.

Как видите, GPT2(023) может генерировать связный и актуальный текст, относящийся к пандемии Covid-19, демонстрируя свою способность понимать недавние события. Тем не менее, он борется с некоторыми предметами, которые не были чрезвычайно важны для его тренировочных данных. Поскольку во время тонкой настройки было использовано всего 2,23 миллиарда токенов, модель могла пропустить многие недавние события. Одним из таких событий являются последние выборы в США.

Данный текст в формате вопрос-ответ:

Q: Who is the last president?
A: Donald Trump

Q: Who is the most recent president?
A: 

Модель завершает текст словами:

Barack Obama

Мы планируем в ближайшее время провести тщательную оценку и поделиться результатами, чтобы лучше продемонстрировать производительность модели, но мы подозреваем, что модель немного более высокого качества, чем исходная модель GPT2, на основе которой она была настроена.

В заключение можно сказать, что GPT2(023) — многообещающая модель, цель которой — предоставить расширенные возможности генерации текста, особенно в области кода, научных текстов и недавних событий. Мы в восторге от потенциальных применений этой модели и с нетерпением ждем возможности поделиться с вами новыми обновлениями и результатами оценки в ближайшем будущем.

Следите за новостями и обновлениями по GPT2(023)!

GPT2(023) и более подробная информация о его обучении доступны на Hugging Face! Вы можете изучить и поэкспериментировать с нашей отлаженной моделью по этой ссылке: https://hf.co/crumb/gpt2023. Попробуйте и испытайте на себе расширенные возможности генерации текста.