ICLR 2021 - 10 статей, которые нельзя пропустить

Международная конференция по обучающим репрезентациям уже здесь, и она наполнена содержанием: 860 докладов, 8 семинаров и 8 приглашенных докладов. Трудно выбрать, на что обратить внимание, поэтому вот несколько идей, на что стоит обратить внимание!

Год назад конференция ICLR 2020 была первой крупной конференцией, которая стала полностью интерактивной, и установила удивительно высокий стандарт для всех полностью виртуальных конференций. В этом году конференция снова является онлайн-мероприятием, и оно выглядит многообещающим: трансформеры реже появляются в названиях… потому что они уже повсюду! Компьютерное зрение, обработка естественного языка, поиск информации, теория машинного обучения, обучение с подкреплением… назовите это! Разнообразие содержания в выпуске этого года просто ошеломляет.

Что касается приглашенных выступлений, то состав участников также впечатляет: Тимнит Гебру откроет церемонию, рассказывая о том, как мы можем выйти за рамки риторики справедливости в машинном обучении, что вызовет обсуждение этой темы на конференции. Семинары также становятся более насыщенными, чем когда-либо прежде, включая модели на основе энергии, статьи о переосмыслении машинного обучения и ответственный искусственный интеллект и многое другое.

Разобраться в этом впечатляющем составе - нелегкая задача, но с некоторой помощью AI Research Navigator на Zeta Alpha мы просмотрели наиболее актуальные документы ICLR по цитированию, популярности в Твиттере, влиянию автора, презентациям в центре внимания и некоторым рекомендациям. с платформы, и мы определили несколько действительно крутых работ, которые хотели бы выделить; некоторые из них уже хорошо известны, а некоторые представляют собой скорее скрытую жемчужину. Конечно, эти выборы не преследуют цель быть исчерпывающим обзором - нам будет не хватать многих тем, таких как поиск нейронной архитектуры, теория машинного обучения, обучение с подкреплением или графические нейронные сети среди других - но эй, я слышал, что часто лучше выбирать редкий и более глубокий, чем широкий и мелкий; Итак, вот мой топ-10, наслаждайтесь!

1. Изображение стоит 16x16 слов: трансформеры для распознавания изображений в масштабе | 🖥 Сессия ICLR | 👾 Код

Авторы: Алексей Досовицкий, Лукас Бейер, Александр Колесников, Дирк Вайссенборн, Сяохуа Чжай и др.

Авторский TL; DR → Преобразователи, применяемые непосредственно к фрагментам изображений и предварительно обученные на больших наборах данных, действительно хорошо работают при классификации изображений.

❓Почему → Первая статья, показывающая, как чистые Трансформеры могут улучшить (своего рода) большие изображения по сравнению с лучшими CNN, положив начало быстрой «революции трансформеров видения» последних нескольких месяцев.

💡Основные выводы → Трансферное обучение оказалось чрезвычайно эффективным для трансформеров: все современные НЛП включают в себя передачу того или иного рода, например, из предварительной подготовки под самоконтролем. В общем, обнаруживается, что чем больше сеть, тем лучше она может передавать, а когда дело доходит до больших сетевых сетей, трансформаторы не имеют себе равных.

Руководствуясь этим видением, авторы показывают, как чистый Transformer может чрезвычайно хорошо работать с классификацией изображений, просто загружая изображения в виде последовательностей встраивания патчей - простой линейной проекции пикселей патча - и обучая непосредственно на больших объемах контролируемые данные (ImageNet). В документе намекают, что модель может выиграть от самостоятельного предварительного обучения, но не предоставляет для этого полноценные эксперименты.

Результаты показывают, как ViT превосходит CNN и даже гибриды CNN + внимание, как только модель выходит из режима ограничения данных; даже будучи более эффективными с точки зрения вычислений! Среди множества интересных экспериментов авторы показывают, как рецептивные поля от внимания развиваются по уровням: сначала они очень разнообразны (глобальные + локальные), а затем специализируются на локальном внимании в сети.

Вам также могут понравиться на ICLR: LambdaNetworks: Моделирование дальних взаимодействий без внимания

2. Переосмысление внимания с исполнителями | 🖥 Сессия ICLR | ✍️ Блог

Авторы: Кшиштоф Чоромански, Валерий Лихошерстов, Дэвид Дохан, Синю Сон, Андреа Гейн, Тамас Сарлос, Питер Хокинс, Джаред Дэвис и другие.

Авторский TL; DR → Исполнители, линейные трансформеры с полным рангом и вниманием с помощью методов доказуемой аппроксимации случайных признаков, не полагаясь на разреженность или низкий ранг.

❓Почему → Сложность L² полного внимания до сих пор не дает спать многим исследователям машинного обучения. Эффективные трансформеры появляются уже давно, но ни одно предложение явно не доминировало в пространстве… пока?

💡Основные выводы → В отличие от других предложений эффективных преобразователей, исполнители не полагаются на определенные эвристики для приближения внимания, такие как ограничение внимания приближениями более низкого ранга или обеспечение разреженности. Вместо этого авторы предлагают матричную декомпозицию механизма самовнимания на матрицы ниже, которые имеют комбинированную сложность, линейную относительно. длина последовательности L: O (Ld²log (d)) вместо O (L²d).

Это разложение опирается на слишком много уловок, чтобы ввести их здесь, но просто ради отбрасывания названия, мы говорим о ядрах, случайных ортогональных векторах и тригонометрических приближениях softmax. Все на службе здания FAVOR + с очень строгими теоретическими гарантиями для оценки собственного внимания.

Когда дело доходит до реальных экспериментов, эта работа сравнивает Performer с существующими эффективными преобразователями, такими как Linformer¹ и Reformer², в задачах, где моделирование очень длинных зависимостей имеет решающее значение, таких как изучение последовательностей белков, где оно превосходит существующие архитектуры. Наконец, одна из самых привлекательных сторон этого метода заключается в том, что вы можете повторно использовать существующий предварительно обученный преобразователь с новым механизмом линейного внимания, требуя лишь небольшой тонкой настройки, чтобы восстановить большую часть исходной производительности. , как вы можете видеть ниже (слева).

Вам также могут понравиться: Арена дальнего боя: эталон эффективных трансформеров, Внимание на случайные особенности

3. PMI-Masking: Принципиальное маскирование коррелированных промежутков | 🖥 Сессия ICLR

Автор: Йоав Левин и др.

Авторский TL; DR → Совместное маскирование коррелированных токенов значительно ускоряет и улучшает предварительное обучение BERT.

❓Почему → Замечательно чистая и прямолинейная идея в сочетании с такими же замечательными результатами. Это способствует нашему пониманию цели предварительной подготовки по моделированию маскированного языка.

💡Основная информация → Вместо случайного маскирования токенов авторы идентифицируют - используя только статистику корпуса - диапазоны токенов с высокой степенью корреляции. Для этого они расширяют точечную взаимную информацию между парами токенов до промежутков произвольной длины и показывают, как обучение BERT с этой целью обучается более эффективно, чем альтернативы, такие как равномерное маскирование, маскирование всего слова, случайное маскирование диапазона и т. Д.

Интуитивно эта стратегия работает, потому что вы не позволяете модели предсказывать замаскированные слова, используя очень мелкие корреляции слов, которые часто появляются рядом друг с другом, заставляя модель изучать более глубокие корреляции в языке. На рисунках ниже вы можете увидеть, как Трансформеры учатся быстрее с PMI-MLM.

4. Рекуррентные независимые механизмы | 🖥 Сессия ICLR

Авторы: Анируд Гойал, Джордан Хоффманн, Шагун Содхани и др.

Авторский TL; DR → Изучение повторяющихся механизмов, которые работают независимо и умеренно взаимодействуют, может привести к лучшему обобщению для выборок вне распределения ..

❓Почему → Если искусственный интеллект хочет когда-либо в чем-то напоминать человеческий, ему необходимо обобщить, не ограничиваясь распределением обучающих данных. Эта статья, изначально выпущенная чуть более чем через год, дает понимание, эмпирические основы и продвигается к такому виду обобщения.

💡Основные выводы → Рекуррентные независимые механизмы - это сети, которые создают узкое место для привлечения внимания. Этот метод черпает вдохновение в том, как человеческий мозг обрабатывает мир; то есть, в основном, путем выявления независимых механизмов, которые взаимодействуют лишь редко и причинно. Например, набор прыгающих мячей можно в значительной степени смоделировать независимо до тех пор, пока они не столкнутся друг с другом, что является редким событием.

RIM - это форма повторяющихся сетей, в которых большинство состояний развиваются самостоятельно большую часть времени и редко взаимодействуют друг с другом через механизм внимания, который может быть либо сверху вниз (непосредственно между скрытыми состояниями), либо снизу вверх (между входными функциями и скрытые состояния). Эта сеть демонстрирует более сильное обобщение, чем обычные RNN, когда распределение входных данных смещается.

Один из важных выводов вещи с трансформаторами в целом заключается в том, что важность индуктивных смещений в сетевых сетях, возможно, была преувеличена. Однако это верно при тестировании моделей в домене. В этой статье показано, как для доказательства полезности сильных априорных значений, таких как узкое место внимания, нужно выйти за пределы области обучения, и большинство современных систем ML / RL не тестируются таким образом. .

Хотя результаты могут быть не самыми впечатляющими, эта статья - вместе с последующими работами (см. Ниже) - предлагает амбициозную повестку дня в отношении того, как мы можем превратить наши системы машинного обучения во что-то, напоминающее наш мозг, можно даже сказать, объединение лучшее из старого доброго символического ИИ с революцией DL в последнее десятилетие. Надо отмечать такие попытки!

Вам также могут понравиться: Быстрое и медленное изучение повторяющихся независимых механизмов, Факторизация декларативных и процедурных знаний в структурированных, динамических средах, В поисках обобщения утерянной области.

5. Генеративное моделирование на основе оценок с помощью стохастических дифференциальных уравнений | 🖥 Сессия ICLR | 👾 Код

Ян Сонг и др.

Авторский TL; DR → Общая структура для обучения и выборки из моделей, основанных на оценках, которая унифицирует и обобщает предыдущие методы, позволяет вычислять вероятность и обеспечивает управляемую генерацию.

❓Почему → GAN по-прежнему остаются странными существами ... Приветствуются альтернативы, и этот очень многообещающий: преобразовать данные в шум легко, преобразовать шум в изображения ... Генеративное моделирование! И это то, что делает эта статья.

💡Основные выводы → Хорошо, я не могу сказать, что полностью понял все детали, потому что много математики просто не в моей голове. Но суть довольно проста: вы можете преобразовать изображение в «шум» как «процесс диффузии». Подумайте о том, как отдельные молекулы воды движутся внутри проточной воды: есть некоторый детерминированный поток воды, который следует градиенту с некоторым добавлением случайного покачивания. Вы можете сделать то же самое с пиксельными изображениями, рассеивая их так, чтобы они превратились в нечто вроде шума из поддающегося контролю распределения вероятности. Этот процесс можно смоделировать как стохастическое дифференциальное уравнение, известное в физике, в основном дифференциальное уравнение с некоторым дополнительным колебанием в каждый момент времени.

А что, если бы я сказал вам, что этот процесс стохастической диффузии ... обратим! Вы можете просто сэмплировать этот шум и вернуться к изображению. И точно так же авторы получают начальную оценку SOTA 9,89 и FID 2,20 по CIFAR-10. Хорошо, там гораздо больше творится под капотом ... вам действительно нужно прочитать эту статью!

6. Авторегрессивное извлечение сущности | 🖥 Сессия ICLR | 👾 Код

Авторы: Никола де Као, Готье Изакар, Себастьян Ридель, Фабио Петрони.

Авторский TL; DR → Мы решаем проблему извлечения сущностей, генерируя их уникальные идентификаторы имен слева направо в авторегрессивной манере и в зависимости от контекста, показывающего результаты SOTA в более чем 20 наборах данных с крошечной долей памяти последних систем.

❓Почему → Новый прямой подход к извлечению сущностей, который неожиданно разрушает некоторые существующие тесты.

💡Основная информация → Получение сущности - это задачи по нахождению точной сущности, к которой относится естественный язык (что иногда может быть неоднозначным). Существующие подходы рассматривают это как поиск проблема, когда извлекают сущность из KG по фрагменту текста. До настоящего времени. В этой работе предлагается найти идентификатор объекта путем его авторегрессивной генерации: вроде того, как синтаксис уценки связывает гиперссылки: [entity](identifier generated by the model). Никакого поиска + переориентации, ничего, просто и понятно. Фактически это означает перекрестное кодирование сущностей и их контекста с тем преимуществом, что объем памяти линейно масштабируется с размером словаря (нет необходимости делать много точечных произведений в пространстве базы знаний) и нет необходимости отбирать отрицательные данные.

Начиная с предварительно обученного BART⁵, они оптимизируют максимальную вероятность авторегрессионной генерации корпуса с сущностями (википедия). При выводе они используют ограниченный поиск луча, чтобы модель не генерировала недействительные объекты (то есть не в базе знаний). Результаты просто впечатляющие, см. Пример в таблице ниже.

7. Приблизительное отрицательное контрастное обучение ближайшего соседа для поиска плотного текста | 🖥 Сессия ICLR

Авторы: Ли Сюн, Ченьян Сюн и др.

Авторский TL; DR → Улучшите поиск плотного текста с помощью ANCE, который выбирает глобальные негативы с большими нормами градиента с помощью асинхронно обновляемого индекса ИНС.

❓Почему → Информационный поиск сопротивлялся «нейронной революции» гораздо больше, чем компьютерное зрение. Но со времен Берта достижения в области плотного извлечения данных были гигантскими, и это фантастический пример этого.

💡Ключевое понимание → При обучении модели плотному поиску обычной практикой является изучение пространства встраивания, в котором расстояние между запросом и документом является семантически релевантным. Контрастное обучение является стандартной техникой для этого: минимизировать расстояние между положительными парами запрос-документ и максимизировать расстояние между отрицательными выборками. Однако отрицательные образцы часто выбираются случайным образом, что означает, что они не очень информативны: в большинстве случаев отрицательные документы очевидно не связаны с запросом.

Авторы этой статьи предлагают брать образцы негативов из ближайших соседей во время обучения, в результате чего получаются документы, близкие к запросу (т.е. документы, которые считает релевантными для текущей модели). На практике это означает, что индекс корпуса необходимо обновлять асинхронно во время обучения (обновление индекса на каждой итерации будет очень медленным). К счастью, результаты подтверждают, что базовые показатели BM25 наконец-то остались позади!

8. Увеличение изображения - это все, что вам нужно: упорядочение обучения с глубоким подкреплением на основе пикселей | 🖥 Сессия ICLR

Авторы Денис Ярат, Илья Костриковм и Роб Фергус.

Авторский TL; DR → Первая успешная демонстрация того, что увеличение изображения может быть применено к Deep RL на основе изображений для достижения производительности SOTA.

❓Почему → За что болеете? модельный или безмодельный RL? Прочтите эту статью, прежде чем отвечать на вопрос!

💡Ключевое понимание → Существующие свободные от моделей RL успешно учатся на основе входных данных, но не могут учиться напрямую на изображениях. Интуитивно это связано с тем, что при обучении из буфера раннего воспроизведения большинство изображений являются сильно коррелированными, представляя очень редкие сигналы вознаграждения. В этой работе показано, как безмодельные подходы могут получить огромную выгоду от дополнений в пространстве пикселей, чтобы стать более эффективными с точки зрения выборки при обучении, достигая конкурентоспособных результатов по сравнению с существующими подходами на основе моделей в контрольном пакете DeepMind® и тестах 100k Atari®.

9. Адаптивная федеративная оптимизация | 🖥 Сессия ICLR

Авторы: Сашанк Дж. Редди, Закари Чарльз и др.

Авторский TL; DR → Мы предлагаем методы адаптивной федеративной оптимизации и подчеркиваем их более высокую производительность по сравнению с популярными методами, такими как FedAvg.

❓Почему → Чтобы федеративное обучение стало повсеместным, федеративные оптимизаторы должны стать скучными, как и ADAM¹¹ в 2021 году. В данной статье это именно делается.

💡 Ключевые выводы → Федеративное обучение - это парадигма машинного обучения, в которой центральная модель, размещенная на сервере, обучается несколькими клиентами распределенным образом. . Например, каждый клиент может использовать данные на своем собственном устройстве, вычислять градиент w.r.t. функция потерь и передать на центральный сервер обновленные веса. Этот процесс вызывает множество вопросов, например, как объединить обновления веса от нескольких клиентов.

Этот документ отлично объясняет текущее состояние федеративных оптимизаторов, создает простую структуру для их обсуждения и показывает некоторые теоретические результаты по гарантиям сходимости и эмпирические результаты, демонстрирующие, что предлагаемые ими адаптивные федеративные оптимизаторы работают лучше, чем существующие оптимизаторы, такие как FedAvg⁸. Фреймворк объединенной оптимизации, представленный в этом документе, не зависит от оптимизатора, используемого клиентом (ClientOpt), и оптимизатора, используемого сервером (ServerOpt), и позволяет им подключаться такие методы, как импульс и скорость адаптивного обучения, в процесс объединенной оптимизации. Интересно, однако, что результаты, которые они демонстрируют, всегда используют ванильный SGD в качестве ClientOpt и используют адаптивные оптимизаторы (ADAM, YOGI) в качестве ServerOpt.

10. Может ли плодовая муха выучить вложения слов? | 🖥 Сессия ICLR

Авторы Yuchen Liang и др.

Авторский TL; DR → Сетевой мотив из мозга плодовой мушки может научиться встраиванию слов.

❓Почему → Предпосылка этой статьи была слишком неотразимой, чтобы не включать ее здесь, и она также является превосходным противовесом доминирующей разновидности массового машинного обучения.

💡Основная информация → Слова могут быть довольно эффективно представлены в виде разреженных двоичных векторов (даже с учетом контекста!). Эта работа очень похожа по духу на уже такие классические, как Word2Vec⁹ и GloVe¹⁰, в том смысле, что встраивание слов изучается с помощью очень простых нейронных сетей и для этого грамотно используется статистика корпуса взаимодействия.

Архитектура основана на том, как организованы биологические нейроны плодовых мушек: сенсорные нейроны (PN) отображаются на клетки Кеньона (KC), которые связаны с передним парным латеральным нейроном (APL), который отвечает за периодическое отключение большинства KC, оставляя только несколько редких активаций.

Переводя это на язык, слова представлены в нейронах PN как конкатенация контекста набора слов и горячего вектора для среднего слова (см. Рисунок ниже). Затем этот вектор считается обучающей выборкой, которая проецируется на нейроны KC и разрежается (сохраняются только значения top-k). Сеть обучается путем минимизации функции энергии, которая заставляет слова с общим контекстом быть близкими друг к другу в пространстве KC.

Интересно, что это позволяет генерировать контекстуализированные вложения слов на лету (😉), учитывая, что контекст пакета слов может отличаться для данного слова во время логического вывода.

Довольно интересная группа статей! На самом деле было непросто сузить число до 10. В заключение я хотел бы упомянуть, насколько приятно читать статьи ICLR, поскольку они намного более отточены, чем ваша средняя публикация на arxiv.org. Как бы то ни было, на этом сборник заканчивается, но есть еще много чего интересного для конференции, и я с нетерпением жду этого. Команда будет делиться интересными мыслями в прямом эфире из ленты Twitter нашей компании на @zetavector, так что следите за новостями, если не хотите ничего пропустить.

А вы? Что вы больше всего ждете от конференции? Не стесняйтесь делиться некоторыми предложениями в комментариях👇

Ссылки

[1] Линформер: внимание к себе с линейной сложностью - Синонг Ван и др. 2020 г.

[2] Реформатор: эффективный преобразователь - Никита Китаев и др. 2020 г.

[3] Эффективные трансформаторы, обзор - Йи Тай и др. 2020 г.

[4] Большая птица: трансформеры для более длинных последовательностей - Манзил Захир и др. 2020 г.

[5] BART: предварительное обучение по устранению шумов от последовательности к последовательности для генерации, перевода и понимания естественного языка - Майк Льюис, Иньхан Лю, Наман Гоял и др. 2019 г.

[6] DeepMind Control Suite - Ювал Тасса и др. 2018 г.

[7] Модельно-ориентированное обучение с подкреплением для Atari - Лукаш Кайзер, Мохаммад Бабаизаде, Петр Милос, Блаз Жей Осински и др. 2019 г.

[8] Изучение глубинных сетей на основе децентрализованных данных с точки зрения коммуникации и эффективности - Х.Брендан, МакМахан и др. 2016 г.

[9] Эффективное оценивание представлений слов в векторном пространстве - Томас Миколов и др. 2013

[10] Перчатка: глобальные векторы для представления слов - Авторы Джеффри Пеннингтон, Ричард Сохер, Кристофер Мэннинг 2014 г.

[11] Адам: метод стохастической оптимизации - Дидерик П. Кингма и др. 2015 г.