Лучшее из arXiv - Литература за апрель 2021 года: GPT наносит ответный удар, видеопреобразователи и многое другое.

Ежемесячная подборка статей по ML

Трудно оставаться на вершине списка для чтения, а найти статьи, которые должны быть в этом списке, может быть еще сложнее. В Zeta Alpha мы всегда внимательно следим за последними исследованиями машинного обучения, поэтому мы публикуем ежемесячную подборку последних статей, чтобы выявить, что, по нашему мнению, будет влиятельными публикациями, в основном на основе вклада каждой работы и авторов. влиять. Не воспринимайте этот список как исчерпывающий: у нас есть свои предубеждения, как и у всех остальных, но, эй, из более чем 4000 статей вы можете выбрать только так много. Наслаждаться!

1. Все задачи НЛП - это задачи генерации: общая схема предварительной подготовки | 👾 Код

Авторы: Чжэнсяо Ду, Юцзе Цянь, Сяо Лю, Мин Дин, Цзечжун Цю, Чжилинь Ян и Цзе Тан.

🎖Почему → Этот документ представляет собой карту трех основных существующих подходов к предварительному обучению языков: авторегрессия (например, GPT, которые превосходно генерируют текст), моделирование замаскированного языка (также известное как «заполнение текста»). blank, как BERT, который отлично справляется с задачами классификации NLU) и seq2seq (для моделей кодировщика-декодера, таких как T5, которые превосходят условную генерацию текста, такую как перевод или резюмирование). Эти 3 техники демонстрируют свои сильные и слабые стороны, так что было бы неплохо, если бы мы могли получить лучшее из всех миров? Вот попытка.

💡Основные выводы → Основные применения трех основных подходов к предварительному обучению языков можно обобщить в таблице ниже. Напомним, что NLU - это задачи классификации в тестах, таких как SuperGLUE ¹ (анализ тональности, вывод естественного языка и т. Д.), Условная генерация - это задачи генерации текста, в которых существует определенная взаимосвязь между входной и выходной последовательностями (например, перевод или обобщение текста), а безусловная генерация - это задача произвольной генерации текста.

Авторы предлагают унифицирующую технику предварительного обучения, которую они называют общей языковой моделью (GLM), и она точно кратко изложена в описании рисунка.

Мотивация этого разделения на части A и B состоит в том, чтобы заставить одну и ту же модель изучить как двунаправленный кодировщик (A), так и однонаправленный декодер (B). Одно из различий между предыдущими моделями на основе диапазона, такими как spanBERT², заключается в том, что длина диапазона теперь неизвестна модели. Этот метод требует отработки некоторых приемов и деталей, таких как позиционное кодирование, которые указаны в статье.

Что касается результатов, сравнение с RoBERTA³, вероятно, является одним из самых интересных, поскольку та же модель с этим новым подходом к предварительному обучению превосходит исходную реализацию. В некоторых случаях все же лучше смешивать исходную цель обучения MLM с GLM, указывая на тот факт, что GLM не всегда лучше. Для оценки seq2seq они выполняют абстрактное суммирование, где оно хорошо работает по сравнению с моделями аналогичного размера.

2. GPT тоже понимает | 👾 Код

Авторы: Сяо Лю, Яньань Чжэн, Чжэнсяо Ду, Мин Дин, Юцзе Цянь, Чжилинь Ян, Цзе Тан.

🎖Почему → я бы с уверенностью поместил эту статью в мою первую первую строчку за последний месяц. Идея блестящая и простая, результаты кажутся просто потрясающими, а статья очень ясна и полна проницательных моментов. Это ставит под сомнение то, что в предыдущей статье той же исследовательской группы было представлено как данность: что авторегрессионное предварительное обучение не годится для NLU. Хорошо держите свою бумагу! И продолжайте читать ... Техника, которую они предлагают, p-tuning, может стать стандартной техникой для обучения за несколько шагов и точной настройки огромных LM, для которых обычная точная настройка не работает очень хорошо или слишком дорого.

💡Основные выводы → В мае 2020 года GPT-3 удивил даже самых скептиков, показав, как простое генеративное предварительное обучение, масштабируемое до сотен миллиардов параметров, может показать впечатляющую производительность при нулевом и малом количестве выстрелов, просто за счет «Подсказывая» модель естественным языком, описывая задачу и / или приводя к ней несколько примеров. Это вдохновило некоторые работы, которые углубились в искусство «подсказывания», такие как PET⁴. Даже некоторые предложенные методы для автоматического поиска хороших подсказок для моделей для решения задач без обновления каких-либо параметров модели, таких как AutoPrompt¹¹.

В этой работе авторам пришла в голову блестящая идея перестать ограничивать подсказки реальными словами языка из фиксированного словаря. Вместо этого они изучают фиксированное количество непрерывных встраиваний, которые можно оптимизировать с помощью градиентного спуска, и называют это p-настройкой. Это означает, что все параметры исходной модели могут оставаться замороженными, и обновляются только вложения подсказок. Забавно думать об этом как о своего рода дифференцируемом программировании 2.0, где вы учитесь объяснять заранее подготовленную модель, что делать.

Результаты наиболее интересны при сравнении тонкой настройки, p-настройки и ручных подсказок. Специально для исследования знаний (извлечение фактоидов из замороженной предварительно обученной модели), где p-настройка работает намного лучше, чем альтернативы. В тесте SuperGLUE, хотя он и не приближается к другим SOTA (но это было бы несправедливым сравнением, учитывая большие различия в размерах моделей), p-tuning показывает очень высокую производительность по сравнению со стандартной тонкой настройкой или ручной настройкой. подсказка.

3. Предварительно обученные трансформаторы как универсальные вычислительные машины | 👾 Код | ✍️ Блог

Авторы: Кевин Лу, Адитья Гровер, Питер Аббил и Игорь Мордач.

🎖Почему → Хотя, на мой взгляд, центральное утверждение статьи остается нерешенным (черт в деталях), идея понимания предварительно обученных трансформаторов как «вычислительных машин» - чего-то, что может вычислять ничего с соответствующими инструкциями - завораживает. На мой взгляд, это хорошо согласуется с статьей «GPT тоже понимает», где изучаются входные данные модели для задачи, а не параметры модели.

💡 Ключевые выводы → Авторы исследуют, как Transformers выполняют множество необычных задач, особенно вычислительных: битовая память (повторение поврежденной строки битов), Bit XOR (вычисление поэлементного XOR двух битовые строки, что исторически было трудно выполнять сетевым сетям), ListOps (с учетом последовательности операций, предсказывающих результирующий бит), MNIST (набор рукописных цифр) и CIFAR-10 (тест классификации изображений).

Что еще более интересно, они утверждают, что в предварительном обучении языку есть что-то такое, что заставляет его узнать что-то универсальное обо всех этих других задачах (которые априори не связаны с языком). Чтобы исследовать эту гипотезу, они получают предварительно обученный преобразователь языка и замораживают все его веса, кроме нормализации слоя, а также входных и позиционных вложений, называя его замороженным предварительно обученным преобразователем (FPT).

Дьявол кроется в деталях, потому что разрешение тонкой настройки уровней нормализации по-прежнему влияет на то, как самовнимание ведет себя в будущих слоях, неявно оптимизируя их, несмотря на то, что самовнимание заморожено (см., Как это влияет на производительность, в таблице 11). Более того, случайно инициализированный трансформатор уже очень хорошо справляется со многими задачами только за счет точной настройки параметров внедрения, вывода и норм уровня.

Несмотря на это, хотя центральное утверждение статьи о том, что трансформаторы являются универсальными вычислительными механизмами, остается спорным, статья полна исследований по абляции - как в таблице ниже - которые являются новыми и дают проницательные результаты, позволяющие понять, в чем они хороши и в чем они нет.

4. Создание изображений с разреженными представлениями

Чарли Нэш, Джейкоб Меник, Сандер Дилеман и Питер В. Батталья

🎖Почему → Напоминаем, что классические хорошо известные методы, такие как обработка изображений с дискретным косинусным преобразованием (DCT) для сжатия, могут улучшить задачу машинного обучения, такую как создание изображений.

💡Основные выводы → Эта статья, частично вдохновленная успехом недавних моделей генерации изображений на основе вероятности, таких как DALL · E⁵ от OpenAI или VQ-VAE⁶, исследует использование разреженных представлений для этой задачи. Одно из преимуществ генеративных моделей, основанных на вероятности, по сравнению с GAN, состоит в том, что они более устойчивы в обучении, а также не подвержены риску попадания в режимы, которые не охватывают все пространство распределений изображений. Мотивация к использованию разреженных представлений заключается в том, что их легко сжимать (там много нулей!), И интересно изучить, насколько хорошо нейронные сети могут работать в этом пространстве представлений, в отличие от общей сетчатой структуры изображений. .

Я лично не знал о преобразовании DCT, используемом при сжатии JPEG, и это действительно круто. Волнистым способом вы можете разделить изображение на блоки по несколько пикселей (например, 8x8), а затем уместить все значения пикселей в функцию на основе косинуса в 2D с 8x8 = 64 степенями свободы. Это выражает фрагмент изображения как суперпозицию 64 частотных функций, взвешенных с помощью 64 коэффициентов. Большинство этих коэффициентов можно просто удалить, не влияя на воспринимаемое качество изображения (мы, люди, не видим много мелкой высокочастотной информации), и это приводит к разреженному представлению, которое легко сжимать (вот почему оно используется в JPEG. сжатие файлов). После просмотра этого превосходного вводного видео в DCT статья станет более понятной.

Представление изображения, которое строится в этой статье, состоит из списка всех ненулевых разреженных коэффициентов из этого преобразования DCT (после некоторых специальных уловок квантования, но вы понимаете его суть) вместе с их каналом. и информация о местоположении. Модель обучена прогнозировать эти кортежи авторегрессивно, считая их значения категориальными, максимизируя вероятность самоконтролируемым образом.

Что касается результатов, в целом они очень хорошие; сопоставимый, если не превосходящий SOTA (за исключением условного класса, в котором все еще правит bigGan). Тем не менее, давайте не будем забывать, что эти показатели являются лишь косвенным показателем качества, оцениваемого людьми, поэтому проверьте результаты своими глазами!

5. ViViT: преобразователь видеоизображения

Авторы: Анураг Арнаб, Мостафа Дехгани, Георг Хейгольд, Чен Сун, Марио Лучич и Корделия Шмид.

🎖Почему → Еще одна задача, которую трансформеры преодолевают (это может быть отдельный раздел). При наличии достаточного количества параметров и данных (наряду с надлежащими дополнениями) кажется, что Трансформеры не справятся ни с одной задачей.

💡Основные выводы → Этот документ основан на существующих преобразователях видения (ViT), таких как «Изображение стоит 16x16 слов» ⁷, и экспериментирует с различными стратегиями для одновременного представления пространственного и временного измерения. время. Одним из наиболее интересных аспектов этой работы является обзор различных стратегий токенизации видео и применения к ним слоев преобразования. Во-первых, при разметке видео они объясняют единообразную выборку кадров и встраивание тубул, см. Рисунки ниже.

Во-вторых, при вычислении внимания в пространстве и времени они предлагают 4 альтернативы: пространственно-временное внимание (все обращается ко всему), факторизованный кодировщик (сначала только пространственный преобразователь, затем временной), факторизованное самовнимание (каждый блок преобразователя имеет пространственно-временное преобразование). затем-временные блоки самовнимания), факторизованное внимание скалярного произведения (одно самовнимание с пространственными головами и временными головами, которые позже соединяются).

Их абляции показывают, что 4 разные модели не чем отличаются, если их хорошо обучить, и что использование предварительно обученных преобразователей в наборах данных изображений очень помогает. Фактически, они не раскрывают подробно, как они предварительно обучают свои модели, только то, что они делают это с помощью наборов данных ImageNet или JFT. Они достигают высочайшего уровня производительности в нескольких тестах классификации видео, включая Kinetics 400 и 600, Epic Kitchens, Something-Something v2 и Moments in Time. Улучшения и уловки, такие как сглаживание меток, смешивание и стохастическая глубина, по-прежнему являются ключевыми для достижения этой производительности, как показывают их абляции.

6. Воспринимающий: общее восприятие с итеративным вниманием

Авторы: Эндрю Джегл, Феликс Гимено, Эндрю Брок, Эндрю Зиссерман, Ориол Виньялс и Жоао Каррейра.

🎖Почему → Моделирование данных с минимальным количеством предположений по этому поводу интересно, потому что оно может хорошо передаваться во многие области. В данном случае Perceiver - это архитектура, которая фокусируется на масштабируемости (устранение неприятного масштабирования собственного внимания N²) и делает минимальные предположения о структуре данных.

💡Основные выводы → Архитектура Perceiver состоит из повторения следующего архитектурного блока, состоящего из:

Шаг перекрестного внимания между скрытым представлением (размером NxD, длиной по размеру встраивания) и необработанным представлением данных (размером MxC, длиной по каналам). Это приводит к тому, что перекрестное внимание имеет сложность NxM вместо MxM, что существенно, когда N ‹---------------- M.
Слой преобразователя, который отображает скрытое представление в другое скрытое представление той же формы (см. Рисунок ниже).

Это можно рассматривать как многократное уменьшение необработанного представления до скрытого. Учитывая, что в этой реализации блоки имеют одинаковый вес, ее можно рассматривать как развернутую RNN. Фактически, в приложении мы можем увидеть сравнение между разделением веса и без распределения веса, в котором первое обеспечивает лучшую производительность, потому что оно не переоснащается, в отличие от невзвешенного; это распределение веса приводит к модели с 44M параметрами.

Авторы проводят эксперименты для различных модальностей: изображения, необработанное аудио, видео, необработанное аудио + видео и облака точек. Несмотря на то, что раздел результатов не очень исчерпывающий, производительность равна или лучше, чем у существующих моделей, особенно по сравнению с существующими мультимодальными моделями (например, 85,7% в рейтинге ImageNet top-1). Результаты впечатляют, но мы не должны забывать о мелком шрифте: хотя архитектура остается одинаковой для всех модальностей, для ее достижения необходимы некоторые модальности аугментации и позиционные встраивания (обрезка, специальные позиционные кодировки и т. д.)

7. Внимание - это еще не все, что вам нужно: чистое внимание теряет рейтинг вдвойне экспоненциально с глубиной | 👾 Код

Авторы: Ихэ Донг, Жан-Батист Кордонье и Андреас Лукас.

🎖Почему → время от времени теоретические статьи не убивают нас, а иногда они дают ценные идеи, помимо того, что они пугают жесткой математикой повсюду. Это один из таких случаев: почему эти пропуски соединений так важны?

💡Основная информация → Слава богу, у нас есть пропуски соединений. Внимание и пропускать соединения - это все, что вам нужно *.

Хорошо, давайте расширим это немного, вы, наверное, слышали, что пропуск соединений (или остаточных) помогает распространять градиенты через более глубокие сети, стабилизирующие обучение. Эта статья дает теоретическое обоснование того, почему это так важно для трансформаторов: без них результат самовнимания вырождается очень быстро - экспоненциально в два раза - из-за SGD, что означает, что он превращается в ранг - 1 матрица, которая уничтожает информацию, которая проходит через нее (т.е. представьте последовательность вложений, в которой все кратны друг другу).

Основной вывод из этой статьи - это скорее подтверждение существующего подозрения, чем неожиданное открытие. В некоторых работах эмпирически показано, как матрица внимания может быть разложена на матрицы гораздо более низкого ранга, минимально влияющие на производительность, такие как «Линформер» ⁸.

8. Обучение дискретному представлению с переменной скоростью | ⏯ Демо

Авторы: Сандер Дилеман, Чарли Нэш, Джесси Энгель и Карен Симонян.

🎖Почему → Меня очаровывает идея представления с переменной скоростью. Интуитивно, слушая и понимая разговорный язык, информация распределяется неравномерно, так зачем же наши представления? Это создает множество проблем, но приятно видеть, что исследования решают эту проблему.

💡Основные выводы → Эта работа строит основанные на событиях представления с использованием архитектуры декодера кодировщика с квантованием во времени, обученной максимизации логарифмической правдоподобности выходных данных декодера, обусловленных квантованной скрытой представление. «Штраф за медлительность» побуждает скрытое представление оставаться на том же уровне, что и на предыдущем временном шаге; этот штраф мотивирован идеей явного ограничения пропускной способности. Еще один трюк, который они используют, - это квантование триггера Шмитта: из-за шума значения квантования могут слишком сильно прыгать, поэтому STQ применяет квантование памяти, которое перескакивает шаг только в том случае, если переменная изменилась более чем на определенное количество.

При такой настройке интуиция подсказывает, что квантованное скрытое представление должно изменяться только при возникновении события. Например, если есть 2 секунды тишины, представление, вероятно, должно оставаться таким же в это время, но если кто-то говорит, средняя частота событий (AER, изменения скрытого представления) должна быть выше. NN, параметризующая кодировщик и декодеры, представляет собой - барабанную дробь - преобразователь, и для этого необходимы дополнительные приемы, подробно описанные в статье.

Что касается результатов, наиболее интересной частью являются абляции по всем гиперпараметрам, таким как пеналы медленности, AER, уровни квантования и т.д. оценка моделирования разговорной речи не очень надежна.

9. Близнецы Барлоу: Самоконтролируемое обучение через сокращение избыточности | 👾 Код

Авторы: Юре Збонтар, Ли Цзин, Ишан Мисра, Янн ЛеКун и Стефан Дени.

🎖Почему → Это новая потеря самоконтроля! Это довольно просто, сравнимо с другими методами изучения представления SOTA (SimCLR, BYOL) и имеет несколько интригующих свойств, которые делают его интересным для дальнейшего изучения ...

💡Основные выводы → Мне нравится концептуализировать это как некое сопоставимое обучение на основе «каждой функции» (но не заходите слишком далеко в аналогии, потому что это неверно). У вас есть два вида изображения (скажем, два кадрирования), вы максимизируете корреляцию каждой функции и в то же время минимизируете корреляцию остальных функций друг с другом. Вы также можете думать об этом как о внешнем произведении двух представлений (оценка взаимной корреляции двух представлений), суммировании и нормализации по пакету и максимально приближении к единичной матрице.

Теоретическое обоснование этой цели восходит к нейробиологу Х. Барлоу в 1961 году, который выдвинул гипотезу о том, что цель обработки сенсорной информации - перекодировать ее в факторный код, что означает представление с абсолютно независимыми компонентами. . Функция потерь Близнецов Барлоу основана на этой идее, поскольку она стимулирует представления быть коррелированными только для каждого компонента, а не глобально.

Результаты сопоставимы с существующими методами обучения представлению, такими как BYOL и SimCLR, но у него есть несколько интересных свойств. Во-первых, он кажется устойчивым к меньшим размерам пакетов в отличие от BYOL (small = 256, 512); он фактически ухудшается для больших партий (2048, 4096)! Мы спросили об этом авторов, и они сказали, что тоже озадачены. Во-вторых, размерность представления не кажется насыщенной, она продолжает улучшать последующую производительность в отличие от сравниваемых методов.

10. Как представить иерархию частично и полностью в нейронной сети

Джеффри Хинтон.

🎖Почему → Один из отцов-основателей Deep Learning делает ставку на ключевые проблемы компьютерного зрения и способы их решения. Но не представляя работающей системы. (Пока что?).

💡Основные выводы → Первое, что подчеркивается в статье, заключается в том, что люди разбирают визуальные сцены на иерархии частично-целого и моделируют пространственные отношения между элементами, не зависящие от точки зрения. Другими словами, мы представляем части изображения в виде иерархии того, что к какому материалу принадлежит (или части объекта и т. Д.), И что они не зависят от точки зрения (мы моделируем карандаш и бумагу как все еще то же, когда мы двигаемся). Эта работа кажется естественным продолжением его идеи Capsule Networks¹⁰, которая также пыталась уловить явно разные уровни репрезентации.

Основная проблема здесь, по словам Хинтона, заключается в том, что текущие сквозные нейронные сети не позволяют нам динамически строить эти деревья синтаксического анализа и динамически выделять группы нейронов для представления узлов в них. Предлагаемое им решение - GLOM - лучше всего понимать как обработку потока изображений (или видео). Он состоит из итеративного представления фрагментов изображения в столбцах векторов, которые представляют разные уровни визуальной структуры (т.е. ~ 5 векторов на фрагмент). На каждом временном шаге эти столбцы обновляются с различными вкладами: прогнозирование снизу вверх (от L-1 до L), прогнозирование сверху вниз (от L + 1 до L), прогноз того же уровня и средневзвешенное значение внимания вложения в окрестности заплатки. В идеале, обучение должно дать островки идентичных векторов на разных уровнях, соответствующие дереву синтаксического анализа изображения, которое представляет его иерархию частично и целиком.

Статья продолжает мотивировать это с помощью идей из биологии, математики и нейронных сетей; а также описание многих соображений о том, как и почему эта система будет работать, которые слишком длинные, чтобы их здесь резюмировать.

Наконец, несмотря на то, что в этой статье не описывается работающая система, некоторые люди уже начали ее внедрять, так что проверьте это!

На этом наш упакованный ежемесячный выбор заканчивается; если вы хотите быть в курсе последних исследований, подпишитесь на нас в Twitter @zetavector. Я уже с нетерпением жду возможности поделиться следующей подборкой на май; до скорого!

Ссылки

[1] SuperGLUE: более надежный тест для универсальных систем понимания языка »А. Ванга, Ю. Пруксачаткуна, Н. Нангиа, А. Сингха и др. 2019.

[2] SpanBERT: Улучшение предварительного обучения путем представления и прогнозирования промежутков времени »Мандар Джоши, Данки Чен и др. 2019.

[3] RoBERTa: надежно оптимизированный подход к предварительному обучению с помощью BERT »Иньхан Лю, Майл Отт, Наман Гоял, Цзинфэй Ду и др. 2019.

[4] Важен не только размер: малые языковые модели тоже малоизвестны »Тимо Шик, Хинрих Шютце, 2020.

[5] Генерация текста в изображение с нулевым кадром Адитьи Рамеша, Михаила Павлова, Габриэля Гоха, Скотта Грея, Челси Восс, Алека Рэдфорда, Марка Чена и Ильи Суцкевер и др. 2021 г.

[6] Обучение нейронной дискретной репрезентации Аарона ван ден Оорда, Ориола Виньялса, Корая Кавукчуоглу и др. 2017 г.

[7] Изображение стоит 16x16 слов: трансформеры для распознавания изображений в масштабе »Алексея Досовицкого, Лукаса Бейера, Александра Колесникова, Дирка Вайссенборна, Сяохуа Чжай и др. 2020.

[8] Линформер: внимание к себе с линейной сложностью Синонг Ван, Белинда З. Ли, Мадиан Хабса, Хан Фанг и Хао Ма, 2020.

[9] Возможные принципы, лежащие в основе преобразования сенсорных сообщений »Горация Барлоу, 1961.

[10] Динамическая маршрутизация между капсулами Сары Сабур, Николаса Фросста и Джеффри Э. Хинтона, 2017.

[11] Автозаполнение: извлечение знаний из языковых моделей с помощью автоматически генерируемых подсказок »Тейлора Шина, Ясамана Разеги, Роберта Л. Логана IV, Эрика Уоллеса и Самира Сингха, 2020.