GPT-3, гигантский шаг к глубокому обучению и НЛП

Может ли интеллект появиться просто путем обучения достаточно большой языковой модели с использованием большого количества данных? OpenAI пытается сделать это, используя 175 миллиардов параметров.

Несколько дней назад OpenAI анонсировала нового преемника своей языковой модели (LM) - GPT-3. Это самая большая обученная модель с 175 миллиардами параметров. Хотя обучение этой большой модели имеет свои достоинства, чтение большей части из 72 страниц может быть утомительным. В этом сообщении блога я выделю части, которые мне интересны для людей, знакомых с LM, которые просто хотят знать (большинство) важных моментов этой работы.

Что есть в языковой модели?

«Разнообразие задач, которые модель может выполнять в условиях нулевого выстрела, предполагает, что высокопроизводительные модели, обученные максимизировать вероятность достаточно разнообразного текстового корпуса, начинают учиться выполнять удивительное количество задач без нужен явный надзор »

Это отрывок из бумаги к GPT-2. GPT-3 делает еще один шаг на этом пути.

В частности, авторы указывают на недостатки точной настройки с использованием наборов данных для конкретных задач.

Получить эти наборы данных сложно.
Тонкая настройка позволяет модели использовать ложные корреляции, которые приводят к плохой производительности вне распределения.
Краткой директивы на естественном языке обычно достаточно, чтобы люди поняли поставленную задачу. Эта адаптивность - желаемое свойство систем НЛП.

Авторы выбрали путь «обучение в контексте» - подача модели спецификации задачи (подсказки) и / или нескольких демонстраций задачи в качестве префикса, направляя ее к подпространству в скрытом пространстве, которое придерживается данное задание. Например, перевод будет выглядеть так: «Q: Какой {язык} перевод {предложение} A: {перевод}».

Это основано на предположении, что модель развивает широкий набор навыков и способностей распознавания образов во время обучения, а затем использует эти способности во время вывода, чтобы быстро адаптироваться или распознать желаемую задачу.

Принято считать, что низкая сложность коррелирует с производительностью последующих задач, поэтому можно надеяться, что более крупные модели дадут лучшие контекстные возможности. И действительно, это верно, как видно на следующем рисунке, где проверяется простая задача, требующая от модели удаления случайных символов из слова:

Количество контекстных примеров варьируется от 10 до 100, поскольку это обычно то, что разрешено при размере контекста модели, равном 2048. Подсказка (спецификация задачи) играет важную роль, когда количество примеров невелико.

Авторы протестировали множество известных тестов, но сначала давайте проверим спецификацию модели.

Поднятие тяжестей

GPT-3 состоит из архитектуры на основе трансформаторов, аналогичной GPT-2, включая модифицированную инициализацию, пре-нормализацию и обратимую токенизацию, описанные в нем, за исключением того, что он использует чередующиеся плотные и локально полосатые узоры разреженного внимания в слоях. трансформатора, похожего на Sparse Transformer.

Авторы обучили модели нескольких размеров, от 125 миллионов до 175 миллиардов параметров, чтобы измерить корреляцию между размером модели и производительностью теста.

Покажите мне свои данные, и я покажу вам ваше будущее

Авторы предприняли три шага для улучшения среднего качества наборов данных:

Они загрузили и отфильтровали версию CommonCrawl на основе сходства с рядом высококачественных справочных корпусов.
Они выполнили нечеткую дедупликацию, чтобы предотвратить избыточность и сохранить целостность удерживаемого набора для проверки.
Они добавили в тренировочную смесь известные высококачественные корпуса.

Покажи мне числа

На следующем рисунке мы видим, что степенной закон LM по-прежнему сохраняется:

Чтобы проверить, коррелирует ли предварительно обученная потеря проверки с производительностью последующих задач, авторы оценили исчерпывающий список известных тестов NLP, подав K примеров из обучающего набора в контексте для оценки примера из набора тестов. В документе подробно описаны все тесты, но здесь я решил описать лишь небольшой пример:

Языковое моделирование

Несмотря на то, что PTB вынужден пропускать многие наборы данных, связанные с проблемами языкового моделирования, из-за включения в обучающие данные, он избегает этой проблемы из-за того, что предшествовал современному Интернету, а GPT-3 устанавливает новую SOTA.

ЛАМБАДА

В этой задаче модель должна предсказать последнее слово данного предложения. Недавно было высказано предположение, что продолжающееся масштабирование LM приводит к уменьшению отдачи от этого сложного эталонного теста. Тем не менее, GPT-3 достиг 76% точности при нулевом выстреле - на 8% больше, чем у предыдущей модели SOTA.

В настройке нескольких снимков задача может быть оформлена как задача закрытия (заполнение пробелов), чтобы модели было легче понять, что требуется только одно слово. Это дает точность 86,4%.

Ответ на вопрос закрытой книги

В этой задаче GPT-3 превосходит SOTA, который не только точно настраивает задачу, но также использует компонент информационного поиска для извлечения фрагментов текста, которые могут содержать ответ. Это говорит о том, что LM продолжают усваивать знания по мере увеличения их возможностей.

Супер клей

GPT-3 кажется слабым в некоторых задачах, требующих сравнения двух предложений, включая определение того, используется ли слово одинаково в двух предложениях, является ли одно предложение пересказом другого или одно предложение подразумевает другое.

Генерация новостной статьи

Авторы попросили оценщиков различать новостные статьи, созданные человеком и машиной. По мере увеличения размера модели участники получали более низкие оценки точности, несмотря на увеличение временных затрат на каждую новостную статью. Это подтверждает вывод о том, что более крупные модели генерируют новостные статьи, которые труднее различить.

В школе много запоминания

Точное обнаружение тестового загрязнения из наборов данных в масштабе Интернета - это новая область исследований, не имеющая признанных передовых методов. По мере увеличения емкости модели увеличивается риск запоминания. В целом авторы удалили документы, которые совпадали с тестовым набором. Однако из-за ошибки у этого процесса остались остатки. Они пытались оценить ущерб, и похоже, что модель не запоминает, и (большинство) результаты верны.

(Мое собственное замечание: возможно, пришло время для более тщательного тестирования в области машинного обучения в целом, как это принято в других областях.)

Ограничения

Хотя качественно GPT-3 лучше, чем его предшественник, его способность к синтезу текста все же имеет слабые места, которые мы знакомы с другими LM, такие как повторы, потеря связности при достаточно длинных отрывках и противоречия.

Кроме того, в некоторых задачах ГПТ-3 с треском провалился. Это могло быть связано с выбором использовать авторегрессионную LM вместо включения двунаправленной информации (аналогично Bert). В то время как обучение в контексте более прямолинейно с авторегрессионными LM, двунаправленные модели, как известно, лучше подходят для последующих задач после точной настройки. В конце концов, обучение двунаправленной модели в масштабе GPT-3 и / или попытка заставить двунаправленные модели работать с обучением за несколько шагов является многообещающим направлением для будущих исследований.

Более фундаментальное ограничение заключается в том, что авторегрессионные (и двунаправленные) модели могут в конечном итоге выйти (или уже могут столкнуться) с пределами цели предварительного обучения. Улучшение задачи, например понимание того, что наиболее важно предсказать (например, сущностей), может принести пользу модели. Заземление модели в других областях опыта, таких как видео или физическое взаимодействие в реальном мире, также может сдвинуть с мертвой точки.

Доказательством того, что задача предварительного обучения не является оптимальной, является эффективность выборки: GPT-3 видит гораздо больше текста во время предварительного обучения, чем человек видит за всю свою жизнь. Повышение эффективности предобучающей выборки является важным направлением для будущей работы и может исходить из физического мира для получения дополнительной информации или за счет улучшения алгоритмов.

Более того, с самоконтролируемыми целями спецификация задачи полагается на превращение желаемой задачи в задачу прогнозирования, тогда как в конечном итоге полезные языковые системы (например, виртуальные помощники) лучше рассматривать как выполняющие целенаправленные действия, а не просто делать прогнозы.

Еще одно ограничение или, по крайней мере, неопределенность, связанное с обучением с несколькими выстрелами в GPT-3, - это неоднозначность в отношении того, действительно ли обучение с несколькими выстрелами изучает новые задачи «с нуля» во время вывода, или оно просто распознает и идентифицирует задачи, которые оно изучило. во время тренировки.

Наконец, что не менее важно, размер модели доставляет практические неудобства. Дистилляция, которую еще не пробовали в таком масштабе, - интересное направление.

Изначально это сообщение было размещено мной на сайте anotherdatum.com.