Понимание самоконтролируемых архитектур на основе трансформаторов

В этой статье мы будем обсуждать известную модель GPT-3, предложенную в статье OpenAI Языковые модели - немногие изучающие. Это преемник GPT-2, имеющий архитектуру, очень похожую на GPT-3.

Если вы не знаете о GPT-2, подумайте о том, чтобы прочитать мою статью о GPT-2, поскольку большая часть GPT-3 основана на нем и поможет лучше понять модель.

Краткое резюме

Возвращаясь к GPT-2, это, по сути, модель авторегрессии, основанная на архитектуре Transformer (Vaswani et al.). Но новизна GPT-2 заключается в предтренировочном подходе.

Предварительное обучение использует многозадачное обучение на уровне набора данных. По сути, это означает, что входные данные говорят модели, что нужно выполнить конкретную задачу НЛП.

Например, пример перевода может иметь формат «перевести на французский,‹ английский текст ›,‹ французский текст ›» в самом исходном документе. Или образец задания на понимание прочитанного может иметь формат: «ответьте на заданный вопрос, используя, ‹document›, ‹question›, ‹answer›.»

- Блог GPT-2

Они называют это беспроблемной передачей задач или метаобучением или контекстным обучением. Таким образом, модель не нужно настраивать для последующих задач НЛП, что является шагом к унификации моделей и общего интеллекта.

GPT-3 основан на том же принципе контекстного обучения, но с некоторыми улучшениями в модели и общем подходе. В документе также рассматриваются проблемы, связанные с этим подходом, и делается попытка достичь самых современных результатов. Мы увидим это в следующих разделах.

Подход к обучению

Как было сказано ранее, GPT-3 также основывается на идее обучения в контексте. Это показано на рисунке выше. Очевидно, что прямого «внутреннего цикла» обучения последовательностям не существует. Например, последовательность может быть:

5 + 8 = 13, 7 + 2 = 9, 1 + 0 = 1, and so on...

И модель будет обучена цели авторегрессии, т. Е. с учетом предыдущих токенов, максимизировать вероятность следующего. Таким образом, он может напрямую захватывать шаблоны из входных данных.

Мысль проста; люди не тренируются на больших наборах данных для каждой задачи. Иногда,

«Скажите, пожалуйста, описывает ли это предложение что-то счастливое или что-то грустное»

достаточно, чтобы дать нам контекст того, что ожидается. Или для кого-то наивного,

"Это звучит весело, это звучит грустно, как вы думаете, как это звучит?"

достаточно, чтобы заставить их понять задачу с разумной компетенцией.

Хотя концепция многообещающая, предыдущие подходы, такие как GPT-2, дают гораздо более худшие результаты, чем современные, которые в основном основаны на подходах до тренировки и точной настройки.

Недавний прогресс в моделях на основе трансформаторов показывает, что более высокое масштабирование модели существенно улучшило результаты точной настройки. И действительно имеет смысл масштабировать модель выше в целях метаобучения, поскольку модель фиксирует множество навыков и задач одновременно и в пределах одной и той же емкости модели (обратите внимание, что в настройке тонкой настройки новая модель обучается для каждой последующей задачи).

Таким образом, авторы обучили модель со 175 МИЛЛИАРДАМИ параметров!

У нее как минимум в 10 раз больше параметров, чем у предыдущей самой большой модели.

Модель Архитектура

Архитектура почти такая же, как у GPT-2, только в огромном масштабе. Он включает в себя инициализацию пользовательских весов, предварительную нормализацию и кодирование пар байтов. Я рассказывал об этом в своей статье о GPT-2. Прочтите его, если вам интересно .

Помимо этого, некоторые идеи взяты из Sparse Transformer, который добавляет несколько модификаций к вычислению внимания для уменьшения сложности и поддержки более длинных последовательностей. По сути, при полном (плотном) внимании каждый токен сопровождает все остальные токены в последовательности, что приводит к пространству O(n²) , т.е. он масштабируется квадратично с длиной последовательности. Чтобы преодолеть это, Sparse Transformer предполагает, что каждый токен может присутствовать только на подмножестве токенов в последовательности, например:

А также,

Затем следует эффективный выбор подмножеств (A). Дальнейшее обсуждение этой модели выходит за рамки данной статьи. Вы можете сослаться на Разреженный трансформатор статью, если вам интересно.

GPT-3 чередует плотное и рассеянное внимание. Однако неясно, как именно выполняется это чередование, но, предположительно, это либо между слоями, либо между остаточными блоками.

Кроме того, авторы обучили GPT-3 8 различных размеров, чтобы изучить зависимость производительности модели от размера модели. Ниже приведены конфигурации этих 8 моделей:

Кроме того, модель разделяется как по глубине, так и по ширине для графических процессоров, чтобы минимизировать передачу данных между узлами.

Тонкая настройка против Zero-Shot против One-Shot против Few-Shot

Это та часть, которая нас интересует больше всего. GPT-3 оценивается более чем на двух десятках наборов данных. Для каждой из этих задач он оценивается по трем параметрам: нулевой выстрел, однократный выстрел и малый выстрел. Мы увидим, что это такое, и сравним их с подходом к тонкой настройке в этом разделе.

Тонкая настройка

В этом подходе мы сначала предварительно обучаем модель (в основном по авторегрессии или цели закрытия), что помогает модели улавливать общие закономерности в языке; затем мы переобучаем его отдельно для конкретных последующих задач НЛП. На рисунке выше модель адаптирована для задачи перевода.

Главный недостаток такого подхода - необходимость больших наборов данных для индивидуальных задач. Кроме того, точная настройка одного набора данных может не обеспечить хорошего обобщения по сравнению с другими для той же задачи. Хотя результаты точной настройки хороши, это оказывается несправедливым по сравнению с человеческими возможностями.

Нулевой выстрел

В этой настройке после предварительного обучения модели (с обучением в контексте) мы напрямую предоставляем модели входные данные для задачи без какого-либо специального обучения для этой задачи. Просто скажите модели «что делать» вместе с входными данными. Это наиболее сложная настройка, а в некоторых случаях она может быть «неоправданно сложной». Например, для таких входных данных, как «составить таблицу мировых рекордов на дистанцию ​​200 м», выходной формат неоднозначен.

Тем не менее, по крайней мере, для некоторых настроек нулевой выстрел наиболее близок к тому, как люди выполняют задачи.

- Бумага ГПТ-3

Например, в приведенном выше примере перевода вводных данных достаточно, чтобы человек понял, что от них ожидается. Кроме того, это в значительной степени то, что предлагает GPT-2.

Один выстрел

В этой настройке мы предоставляем 1) «что делать», 2) ровно один пример (однократный) задачи, а затем 3) вводные данные. Пример предназначен только для кондиционирования, т. Е. он предназначен для предоставления некоторого контекста задачи. Вы можете рассматривать это как некую аналогию с моделью. Мы видели «неоправданно сложный» пример с нулевым выстрелом. В подобных задачах входные данные становятся более правдоподобными для ответа, если предоставляется хотя бы одна демонстрация задачи.

Мало-выстрел

Наконец, в настройке нескольких кадров ввод включает 1) «что делать», 2) несколько примеров (несколько снимков), а затем 3) ввод. Этот параметр обеспечивает лучшее согласование входных данных для модели для прогнозирования выходных данных. Обычно к входным данным добавляются K примеров, где K находится между 10 и 100. Модель поддерживает длину контекста 2048, поэтому примерно при максимальной K = 100 примеры могут поместиться в контекстном окне. Настройка нескольких снимков значительно сокращает объем требуемых данных, чем точная настройка. Но нельзя отрицать, что требуется по крайней мере некоторый объем данных для конкретной задачи. Основным недостатком этой настройки является то, что до сих пор результаты, полученные в этой настройке, были намного хуже, чем современные. Однако GPT-3 удалось достичь результатов, очень близких к современным, по многим задачам.

Обратите внимание: в отличие от точной настройки, модель никогда не обучается на примерах при всех этих настройках. Примеры предназначены только для кондиционирования, то есть для предоставления некоторого контекста на входе. Они используются непосредственно во входных данных при выводе.

Следовательно, языковые модели легко изучаются!

Набор данных обучения

Как и большинство языковых моделей, GPT-3 также обучается на наборе данных CommonCrawl. Собирается 41 сегмент ежемесячного CommonCrawl с периодом с 2016 по 2019 год с 45 ТБ данных. Однако нефильтрованные или слегка отфильтрованные данные из CommonCrawl, как правило, имеют более низкое качество, чем отфильтрованные наборы данных. Итак, авторы предприняли 3 шага, чтобы отфильтровать его:

  1. Авторы взяли несколько высококачественных корпусов и, основываясь на сходстве с этими корпусами, отфильтровали CommonCrawl.
  2. Нечеткая дедупликация используется для удаления избыточности в наборах данных и между ними. Это также обеспечивает целостность, т. Е. Модель не обучается на данных проверки.
  3. И, наконец, добавляются известные высококачественные справочные данные для увеличения разнообразия набора данных.

Остается 570 ГБ данных ~ 400 байтовых пар токенов.

Основное беспокойство по поводу больших языковых моделей, обученных на огромном количестве данных в Интернете, заключается в том, что есть вероятность, что модель уже видела тестовые данные для последующих задач во время предварительного обучения. Чтобы уменьшить загрязнение данных, авторы предприняли попытки найти и удалить такие перекрывающиеся данные.

Однако из-за ошибки фильтрации некоторые данные в предварительном обучении перекрывались, и повторное обучение модели было невозможно из-за затрат на обучение.

Ограничения

Несмотря на прославленных плюсов, GPT-3 имеет несколько ограничений:

  • Хотя качество генерации текста отличное, бывают случаи, когда модель генерирует повторяющийся текст. При создании длинных документов он может потерять связность, противоречить самому себе, а иногда даже полностью потерять контекст. Авторы также заметили, что GPT-3 не справляется с вопросами «физики здравого смысла»; в частности, с вопросами типа «Если я положу сыр в холодильник, он растает?».
  • Мы знаем, что для некоторых задач, таких как «заполнение пробелов», двунаправленные модели превзошли авторегрессионные модели. Таким образом, можно сказать, что большая модель автокодирования может превзойти GPT-3 при таких задачах. Это также открывает возможность исследования для обучения двунаправленных моделей в большом масштабе или обучения их в настройках с нулевым или малым числом выстрелов.
  • Поскольку модель обучается в общем виде, она не имеет предвзятости, связанной с конкретными задачами. Модель весит все жетоны одинаково. Поэтому некоторые реальные приложения, такие как виртуальные помощники, могут выиграть от подходов к тонкой настройке, поскольку они обеспечивают более целенаправленный результат, а не просто прогнозы.
  • Модель масштаба GPT-3, очевидно, будет нелегко сделать вывод. Это дорого и неудобно для выполнения логических выводов. Это вызывает вопросы о практической применимости модели. Это также открывает исследовательские направления для разработки дистиллированных версий модели.
  • Это ограничение для большинства моделей глубокого обучения - решения, принимаемые моделью, основываются на данных, на которых она обучается. Таким образом, существует большая вероятность того, что модель будет иметь стереотипные и предвзятые мнения. Это проблема, вызывающая озабоченность с точки зрения общества. Для получения дополнительной информации об этом вы можете обратиться к разделу Более широкое влияние в Документе GPT-3.

Полученные результаты

В этот раздел я вставлю несколько фрагментов текста, сгенерированных GPT-3:

Сгенерированная новостная статья, которую людям было труднее всего отличить от статьи, написанной людьми:

Title: United Methodists Agree to Historic Split
Subtitle: Those who oppose gay marriage will form their own denomination
Article: After two days of intense debate, the United Methodist Church has agreed to a historic split - one that is expected to end in the creation of a new denomination, one that will be "theologically and socially conservative," according to The Washington Post. The majority of delegates attending the church's annual General Conference in May voted to strengthen a ban on the ordination of LGBTQ clergy and to write new rules that will "discipline" clergy who officiate at same-sex weddings. But those who opposed these measures have a new plan: They say they will form a separate denomination by 2020, calling their church the Christian Methodist denomination.The Post notes that the denomination, which claims 12.5 million members, was in the early 20th century the "largest Protestant denomination in the U.S.,"but that it has been shrinking in recent decades. The new split will be the second in the church's history. The first occurred in 1968, when roughly10 percent of the denomination left to form the Evangelical United Brethren Church. The Post notes that the proposed split "comes at a critical time for the church, which has been losing members for years," which has been"pushed toward the brink of a schism over the role of LGBTQ people in the church." Gay marriage is not the only issue that has divided the church. In 2016, the denomination was split over ordination of transgender clergy, with the North Pacific regional conference voting to ban them from serving as clergy, and the South Pacific regional conference voting to allow them.

Примеры завершения текста:

To do a "farduddle" means to jump up and down really fast. An example of a sentence that uses the word farduddle is:
One day when I was playing tag with my little sister, she got really excited and she started doing these crazy farduddles.
A "yalubalu" is a type of vegetable that looks like a big pumpkin. An example of a sentence that uses the word yalubalu is:
I was on a trip to Africa and I tried this yalubalu vegetable that was grown in a garden there. It was delicious.

Создано стихотворение:

Заключение

В этой статье мы обсудили знаменитую модель GPT-3 и увидели, как она работает. Модель дала поразительные результаты, которые обманули даже людей в их собственной игре. Однако есть еще много возможностей для улучшения, что является мотивацией для дальнейших исследований.

использованная литература