OpenAI представляет 175 миллиардов параметров языковой модели GPT-3

Это обновленная версия.

Когда дело доходит до больших языковых моделей, оказывается, что даже 1,5 миллиарда параметров недостаточно. Хотя это был размер языковой модели на основе преобразователя GPT-2, которую OpenAI выпустил с большой помпой в прошлом году, сегодня компания AI из Сан-Франциско превзошла сама себя, анонсировав обновленный GPT-3 с колоссальными 175 миллиардами параметров.

GPT-3 принимает и масштабирует архитектуру модели GPT-2, включая модифицированную инициализацию, предварительную нормализацию и обратимую токенизацию, и демонстрирует высокую производительность на многих задачах и тестах NLP в настройках с нулевым, однократным и малым выстрелами. .

Исследователи OpenAI говорят, что GPT-3 в некоторых случаях приближается к производительности отлаженных систем SOTA, может генерировать высококачественные образцы и показывает высокую качественную производительность при выполнении задач, определяемых на лету.

Недавние исследования продемонстрировали существенный выигрыш в выполнении многих задач и тестов НЛП благодаря подходу, который использует предварительное обучение на большом корпусе текста с последующей тонкой настройкой для конкретной задачи. Но современные системы искусственного интеллекта по-прежнему испытывают большие трудности с выполнением новой языковой задачи с помощью всего лишь нескольких примеров или простых инструкций на естественном языке, описывающих задачи.

С помощью обучения GPT-3 исследователи показывают, что расширение языковых моделей может значительно улучшить независимую от задачи производительность, требующую нескольких выстрелов, а иногда даже достичь конкурентоспособности с предыдущими подходами SOTA. GPT-3 можно применять без каких-либо обновлений или тонкой настройки градиента, с задачами и демонстрациями с несколькими снимками, указанными исключительно посредством текстового взаимодействия с моделью.

Исследователи оценили GPT-3 на более чем двух десятках наборов данных НЛП и провели несколько новых экспериментов, предназначенных для проверки быстрой адаптации к задачам, которые вряд ли будут непосредственно содержаться в обучающем наборе. Все оценки проводились при трех параметрах: обучение по нескольку раз, обучение по одному и обучение с нулевым выстрелом.

GPT-3 показал высокую производительность по многим наборам данных НЛП по задачам перевода, ответов на вопросы и закрытия. Он также хорошо справлялся с задачами, требующими оперативного рассуждения или адаптации предметной области, таких как расшифровка слов, использование нового слова в предложении или выполнение трехзначной арифметики. Новая модель даже генерировала образцы новостных статей, которые оценщики с трудом могли отличить от текстов, написанных людьми.

Исследователи обучили серию более мелких моделей - от 125 миллионов до 13 миллиардов параметров - для сравнения их производительности с GPT-3 на трех параметрах. Для большинства задач они обнаружили относительно плавное масштабирование с учетом емкости модели во всех трех настройках. Они также заметили закономерность, в которой разрыв между производительностью нулевого, одноразового и нескольких кадров часто увеличивается с увеличением емкости модели, что, по их мнению, предполагает, что более крупные модели являются более опытными метаобучающимися.

Хотя результаты показывают, что даже в масштабе полного GPT-3, модели все еще испытывают трудности с выполнением короткого обучения для некоторых задач, исследователи полагают, что очень большие языковые модели, такие как GPT-3, станут важным ингредиентом в разработке адаптируемых , общеязыковые системы.

В июне OpenAI выпустила разработанный ею API для доступа к новым моделям ИИ, позволяющий пользователям опробовать его практически на любой англоязычной задаче через универсальный интерфейс ввод текста - вывод текста. Разработанный, чтобы быть простым для всех в использовании и достаточно гибким, чтобы сделать команды машинного обучения более продуктивными, API запускает модели с весами из семейства GPT-3 со многими улучшениями скорости и пропускной способности.

Статья Языковые модели - немногие изучающие находится на arXiv, а более подробная информация доступна на проекте GitHub.

Журналист: Юань Юань | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Поделитесь своим исследованием с помощью синхронизированного обзора

Поделиться моими исследованиями - это новая колонка Synced, в которой ученые приглашают ученых делиться своими научными открытиями с более чем 1,5 млн энтузиастов ИИ со всего мира. Помимо технологических достижений, Поделиться моими исследованиями также требует интересных историй, лежащих в основе исследований, и интересных исследовательских идей. Поделитесь с нами своим исследованием, нажав здесь.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

OpenAI представляет 175 миллиардов параметров языковой модели GPT-3

Вопросы по теме