1899 докладов, более 20 тыс. Участников, 62 семинара, 7 приглашенных докладов. Выбор того, на что обратить внимание, является ключевым в таком плотном ландшафте, поэтому вот несколько идей о том, на что вам следует смотреть.

Конференция по системам обработки нейронной информации всегда интересна, потому что на ней собраны все лучшее, что было предложено в предшествующем году. Несмотря на то, что этот год впервые стал полностью виртуальным, этот год не стал исключением; Я имею в виду, посмотрите на 25 лучших опубликованных статей, которые уже цитировались👇

Разобраться в этом впечатляющем составе - нелегкая задача, но с некоторой помощью AI Research Navigator на Zeta Alpha мы просмотрели наиболее актуальные статьи NeurIPS по цитатам, презентациям в центре внимания и некоторым рекомендациям с платформы, и мы определили несколько действительно крутых работ, которые хотелось бы выделить; некоторые из них уже хорошо известны, а некоторые представляют собой скорее скрытую жемчужину. Конечно, эти выборы не являются исчерпывающим обзором - нам будет не хватать многих тем, таких как мультимодальное машинное обучение, федеративное обучение, GAN, обучение с подкреплением, теория машинного обучения, машинное обучение для ODE и другие, - но эй, я слышал, что часто лучше выбирать разреженное и глубокое, чем широкое и мелкое; Итак, вот мой топ-10, наслаждайтесь!

Полу и самоконтроль

Отказ от дорогостоящей зависимости от помеченных данных был одним из главных приоритетов программы машинного обучения в последние годы, в этом году в NeurIPS даже есть собственный полноценный семинар.

1. Начните свою скрытую загрузку, новый подход к самообучению | Виртуальный плакат

❓Почему: результаты, представленные в этой статье, кажутся странными, поэтому она так интересна. Как можно изучить представления только с положительными выборками и не свернуть в тривиальное решение?

💡Основные выводы: метод довольно похож на стандартную настройку контрастного обучения для компьютерного зрения, где к изображениям применяются аугментации, а контрастная потеря заставляет изображения, исходящие из одного источника, объединяться и подталкивает отдыхай подальше. Однако в этой статье нет отрицательных образцов. Вместо этого есть два кодировщика:

  • T - это онлайн кодировщик, параметры которого обновляются на каждой итерации через SGD.
  • T ’- это кодировщик, параметры которого являются экспоненциальным средним от T (в некотором смысле он просто немного отстает от T).

Процедура обучения состоит из кодирования представлений различных представлений изображения через T и T ’и максимизации скалярного произведения этих представлений. Тот факт, что этот метод не сводится к тривиальному представлению, уже впечатляет, но результаты на ImageNet тоже не уступают.

2. Неконтролируемое увеличение данных для обучения согласованности | Виртуальный плакат

❓Почему: тренировка последовательности может стать общей процедурой, улучшающей слабый контроль во многих задачах. Интересно отметить, что статья была отклонена на ICLR 2020, но сейчас находится в NeurIPS с и без того высокой цитируемостью.

💡Основные выводы: вкратце, неконтролируемая потеря согласованности заключается в потере согласования различных вариантов ввода (например, обратный перевод текста или случайное увеличение изображений). Интуиция такова: разные варианты входных данных должны иметь одну и ту же выходную классификацию, несмотря на то, что неизвестно, какая из них является допустимым обучающим сигналом для модели классификации M. В этом случае для изучения хорошего классификатора требуется очень мало истинных меток.

Результаты впечатляют как в компьютерном зрении, так и в обработке естественного языка, где всего 20 меток достаточно для получения приличной производительности в таких задачах, как анализ тональности в наборе данных IMDb¹.

3. Что делает хорошие взгляды на контрастное обучение? | Виртуальный плакат

Почему: контрастное обучение можно понять через призму теории информации, и эта статья представляет собой отличное сочетание эмпирических и теоретических результатов, которые помогают лучше понять основы этого семейства методов.

💡 Ключевые выводы: постоянное обучение компьютерному зрению часто подразумевает создание различных представлений изображения, таких как кадрирование, фильтрация или другие преобразования, и изучение модели, способной различать между видами с этого изображения и остальных. Интересно, что это можно сформулировать как максимизацию взаимной информации между видами изображения. Если углубиться в эту концепцию, в документе показано:

  • Количество совместно используемой информации между представлениями может быть слишком маленьким или слишком большим, и существует золотая середина, в которой результирующие представления будут работать лучше всего, что формирует перевернутую букву U форма. Авторы приводят несколько эмпирических свидетельств, демонстрирующих феномен.
  • Они показывают, как можно использовать это понимание, чтобы сформулировать то, что они называют «фреймворком обучения без учителя», который учится находить эту золотую середину, имея две модели, f и g, одну. максимизация и минимизация оценки взаимной информации между представлениями.

4. Жесткое отрицательное смешение для контрастного обучения | Виртуальный плакат

❓Почему: так же, как и в предыдущем предложении, контрастирующее обучение является одним из столпов самостоятельного обучения репрезентации, но что касается жестких негативов, их влияние на качество усвоения представления не совсем понятны.

💡Основные выводы: авторы предлагают новый метод добавления синтетических жестких отрицаний во время обучения, который является дешевым в вычислительном отношении: MoCHi (смешивание контрастных жестких отрицаний). Метод создает синтетические жесткие негативы непосредственно в пространстве для вложения путем:

  • Для твердых негативов: линейное смешивание элементов из самых твердых негативов.
  • Для еще более сложных негативов: смешивание самого запроса с негативами.

Удивительно, но этот простой метод улучшает самоконтролируемое обучение представлению на изображениях, и выполняются широкие абляции, чтобы понять их эффект.

Другое: Самоконтролируемое реляционное мышление для репрезентативного обучения и более полный выбор.

Трансформеры и внимание

5. Распутанный компромисс между повторением и самовниманием в нейронных сетях | Виртуальный плакат

❓Почему: примерно в 2017 и 2018 годах модели seq2seq превратились из почти повсеместных RNN (GRUs², LSTMs³) в полностью ориентированные на внимание (Transformers⁴). Но разве повторение по-прежнему не является допустимым индуктивным смещением в NN? Можем ли мы пролить свет на самовнимательные RNN в том смысле, какие общие принципы делают их полезными для обучения? Эта статья дает теоретическую основу для размышлений.

💡Ключевое понимание: проблема полного самовнимания заключается в том, что оно плохо масштабируется с длиной последовательности (квадратичной), а проблема повторения заключается в том, что поток информации не может преодолевать «большие временные расстояния» из-за хорошо известных эффект исчезающего градиента, для которого существуют только эвристические решения. Эта статья формализует этот компромисс и показывает, как разреженность и градиентный поток глубина ограничивают вычислительную сложность и информационный поток в этих типах сетей. Где-то в рамках этого компромисса происходят интересные вещи, такие как интригующе хорошее обобщение в RL.

6. Большая птица: трансформеры для длинных последовательностей | Виртуальный плакат

❓Почему: хотя BigBird не является ни первой, ни последней реинкарнацией эффективного трансформатора - см. зоопарк подходов в фантастическом Обзоре эффективных трансформаторов - эта версия содержит изящные инженерные приемы и дает солидные результаты.

💡Главная идея: объедините 3 разные формы внимания: оконное, глобальное и случайное. С помощью этих уловок количество операций, необходимых для механизма внимания, может быть линейным по отношению к длине последовательности. Хотя это ни в коем случае не крошечная модель - окно внимания для их экспериментов уже составляет 512 токенов, как и OG BERT⁶ - этот режим внимания позволяет моделировать гораздо более длинные последовательности, такие как те, что требуются в геномике. , для которого в данной публикации представлены некоторые результаты.

7. Генерация с расширенным поиском для наукоемких задач НЛП | Виртуальный плакат

❓Почему: основная привлекательность заключается в использовании полностью непараметрической памяти, которая, хотя и не является новинкой, может позволить создавать системы ответов на вопросы, которые не нужно переучивать, чтобы адаптироваться к новым или меняют знания, потому что они полностью полагаются на внешние знания.

💡 Основная идея: извлекать документы как доказательства, текст которых используется в качестве контекста для генерации текста. Частично результаты являются современными, они показывают результаты ответов на вопросы по изменению знаний и показывают, как RAG может отвечать на вопросы, для которых он не был обучен, заменяя коллекцию документов, из которых он получает знания (без какого-либо повторного обучения ). Более того, фактическая правильность кажется сильной стороной этого подхода, хотя он все еще не может называться действительно надежным.

8. Языковые модели - малоизвестные ученики | Виртуальный плакат

Почему: (он же GPT-3) много говорилось о серии GPT-X⁷, и нет сомнений в том, что последняя итерация произвела впечатление на самых скептически настроенных людей в этой области. Изначально выпущенный в июле, теперь стоит прочитать эту упрощенную версию работы.

💡 Ключевые выводы: размер, размер, размер. Масштабирование моделей постоянно улучшает производительность и приводит к удивительным результатам; кажется, что до потолка еще далеко… GPT-3 обучает модель со 175 миллиардами параметров, которая показывает удивительные результаты при небольшом обучении, где модели требуется всего несколько примеров, чтобы выучить любую языковую задачу с поразительной степенью. Тем не менее возникает много опасений, таких как стоимость и воздействие таких моделей на окружающую среду, а также выявленные предубеждения.

Другое: Ускоренное обучение языковых моделей на основе трансформаторов с прогрессивным отбрасыванием уровней, O (n) соединения достаточно выразительны: универсальная аппроксимация разреженных преобразователей, Глубокие преобразователи со скрытой глубиной и более полный список .

Контрольные показатели и оценка

9. Учимся резюмировать с помощью отзывов людей | Виртуальный плакат

❓Почему: иногда измерить эффективность выполнения задачи так же сложно, если не сложнее, чем решить саму задачу. Резюме - хороший пример: произведения часто полагаются на такие меры, как ROUGE⁸, которые коррелируют с человеческими суждениями только в определенной степени; и когда модели приближаются к этой границе, мера перестает быть полезной.

💡 Основная идея: 3 шага, которые можно повторять итеративно.

  • Соберите предпочтения людей из пар резюме.
  • Обучите модель оценки, которая научится предсказывать предпочтения людей между двумя резюме.
  • Используйте модель оценки как функцию вознаграждения, используемую для оптимизации политики (модели), которая генерирует сводку с помощью обучения с подкреплением (точнее Proximal Policy Optimization⁹, PPO)

Эта оценка, кажется, лучше коррелирует с человеческими суждениями, хотя это происходит за счет того, что этот показатель менее универсален и объясним.

10. Open Graph Benchmark: наборы данных для машинного обучения на графах | Виртуальный плакат

❓Почему: графики были особенно популярны в этой области в течение нескольких лет, и они нуждаются в своем золотом эталоне, подкрепленном «тяжеловесами» в этой области. Это сильный соперник.

💡Ключи: основными определяющими характеристиками этого теста являются различные размеры (от 100 тыс. до 100 млн узлов), охват многих доменов и несколько категорий задач (прогнозы узлов, ссылок и свойств). Более того, авторы утверждают, что их эксперименты пока демонстрируют значительные проблемы масштабируемости и обобщения вне распределения, которые сильно перекликаются с проблемами, которые представляют реальные данные.

Руководящий комитет, поддерживающий его, включает таких гигантов, как Томми Яаккола, Йошуа Бенжио и Макс Веллинг, и тест не только включает данные, но и конвейер для управления им (загрузка, оценка и т. Д.), Который можно найти на ogb .stanford.edu и предоставляет графические объекты, совместимые с PyTorch, PyTorch Geometric и Deep Graph Library.

Другие соответствующие статьи о графах в NeurIPS: Могут ли графические нейронные сети считать подструктуры?, Изучение динамических графов убеждений для обобщения в текстовых играх, Нейронные сети с факторными графами.

Другие тесты в NeurIPS: BONGARD-LOGO: новый эталон для изучения концепций и рассуждений на уровне человека, эталон для систематического обобщения в обоснованном понимании языка, RL Unplugged: набор тестов для автономного обучения с подкреплением ; и более исчерпывающий список.

Какой захватывающий набор статей, честно говоря, было действительно трудно сузить его до 10. В заключение я хотел бы упомянуть, насколько приятно читать статьи NeurIPS, поскольку они намного более отточены, чем средняя публикация на arxiv.org. Тем не менее, эта небольшая коллекция NeurIPS на этом заканчивается, но есть еще много всего, что нужно изучить для конференции, и я очень этого жду. Команда будет делиться интересными мыслями в прямом эфире из ленты Twitter нашей компании на @zetavector, так что следите за новостями, если не хотите ничего пропустить.

А вы? Что вы больше всего ждете от конференции? Не стесняйтесь делиться некоторыми предложениями в комментариях👇

использованная литература

[1] Изучение векторов слов для анализа настроений, Maas et al. 2011 г.

[2] Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода, Kyunghyun Cho et al. 2014 г.

[3] Долговременная кратковременная память, Зепп Хохрейтер и др. 1997 г.

[4] Внимание - это все, что вам нужно, Ашиш Васвани и др. 2017 г.

[5] Эффективные трансформаторы: обзор, Йи Тай и др. 2020.

[6] BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка, Джейкоб Девлин и др. 2018.

[7] Улучшение понимания языка с помощью генеративного предварительного обучения, Алек Рэдфорд и др. 2018.

[8] ROUGE: пакет для автоматической оценки резюме, Чин-Ю Лин 2004.

[9] Алгоритмы проксимальной оптимизации политики, Джон Шульман и др. 2017 г.