Пять ключевых фактов Wu Dao 2.0: самая большая модель трансформатора из когда-либо созданных

Рекордная модель сочетает в себе умные исследования и инженерные методы.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 100 000 человек. TheSequence - это информационный бюллетень, ориентированный на ML (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:

TheSequence
Подпишитесь, чтобы быть в курсе самых актуальных проектов и исследовательских работ в мире искусственного интеллекта. Нам доверяют 102 000 +… thesequence.substack.com

Кажется, что каждые два месяца у нас есть новая веха в гонке по созданию очень больших моделей трансформаторов. Траектория потрясающая. GPT-2 установила новые рекорды, построив модель с 1,5 миллиардами параметров, которая должна быть превзойдена Microsoft Turing NLG с 17 миллиардами параметров. GPT-3 установил отметку в 175 миллиардов параметров, а Switch Transformer от Google довел ее до 1,6 триллиона параметров. Недавно Пекинская академия искусственного интеллекта (BAAI) объявила о выпуске Wu Dao 2.0, модели-трансформера, которая содержит 1,75 триллиона параметров. Такие цифры сложно представить.

Помимо чудовищных размеров Wu Dao 2.0, модель демонстрирует несколько впечатляющих возможностей, таких как способность выполнять многозадачность в языковой и графической областях. Чтобы понять Wu Dao 2.0, возможно, стоит ознакомиться с некоторыми ключевыми фактами об его базовой архитектуре и дизайне, которые могут пролить свет на хитросплетения модели. Вот некоторые из моих любимых:

1) FastMoE - ключ к успеху

Чтобы масштабировать обучение до триллионов параметров, У Дао использовал архитектуру, известную как FastMoE. Как видно из названия, архитектура черпает вдохновение из Mixture of Experts (MoE) Google, которое использовалось для обучения архитектуры Switch Transformer. МО - это парадигма, предложенная в 1990-х годах, которая делит проблемную область на нескольких экспертов и механизм пропускания для распространения знаний. MoE использовался для ускорения обучения больших глубоких нейронных сетей, но обычно требует узкоспециализированного оборудования. FastMoE - это простая реализация MoE на основе PyTorch, которая может масштабироваться с использованием стандартного оборудования. FastMoE был ключевым элементом для масштабирования обучения FastMoE за 1 триллион параметров.

2) Архитектура ядра основана на GLM 2.0.

Wu Dao 2.0 основан на архитектуре общей языковой модели (GLM) 2.0, опубликованной в марте этого года. GLM совершенствует традиционные архитектуры трансформаторов, такие как BERT или Turing-NLG, в таких областях, как передача задач нисходящего потока и точная настройка для достижения лучших результатов с меньшими моделями.

3) Алгоритм P-Tuning грамотно используется для улучшения понимания

Еще один технический прорыв, использованный в Wu Dao 2.0, - это алгоритм, известный как P-Tuning 2.0, который устраняет разрыв между обучением за несколько шагов и обучением с учителем, чтобы лучше формировать возможности понимания языка в моделях-преобразователях.

4) CogView используется для создания текста в изображение

Wu Dao 2.0 может выполнять различные задачи как в языковой области, так и в области изображений. Модели-преобразователи, такие как OpenAI DALL-E, достигли замечательных результатов в тестировании генерации изображений. Wu Dao 2.0 полагается на похожую технику под названием CogView, которая может эффективно генерировать богатые изображения из текстовых описаний.

5) Оценка по разным языкам и изображениям

Wu Dao 2.0 смогла достичь самых современных результатов в 9 отраслях, оставив эталоны естественного языка и компьютерного зрения:

ImageNet с нулевым выстрелом SOTA превосходит OpenAI CLIP;
Обнаружение знаний LAMA: больше, чем AutoPrompt;
ЛАМАБАДА Клоз: Способность превосходит Microsoft Turing NLG;
SuperGLUE с несколькими выстрелами FewGLUE: превзойти GPT-3 и получить лучшие на данный момент результаты обучения с использованием нескольких кадров;
UC Merced Land-Use с нулевым выстрелом SOTA, превышающим OpenAI CLIP;
Диаграмма генерации текста MS COCO: DALL · E за пределами OpenAI;
Поиск графических изображений MS COCO на английском языке: больше, чем OpenAI CLIP и Google ALIGN;
Многоязычный графический поиск MS COCO: превосходит текущую лучшую многоязычную и мультимодальную модель предварительного обучения UC2, M3P;
Многоязычный графический поиск Multi 30K: превосходит текущую лучшую многоязычную и мультимодальную модель предварительного обучения UC2, M3P.

Wu Dao 2.0 - еще одно впечатляющее достижение в новую эру массово больших моделей трансформаторов. Модель сочетает в себе современные исследования с очень умными инженерными методами машинного обучения. Некоторые принципы архитектуры Wu Dao будут служить источником вдохновения для расширения границ моделей трансформаторов.