С 22 по 27 мая я ездил в прекрасный город Дублин, чтобы принять участие в 60-м ежегодном собрании Ассоциации компьютерной лингвистики (ACL).

Обзор ACL 2022

Конференция ACL предназначена для обмена исследовательскими идеями и достижениями в области обработки естественного языка (NLP).

ACL 2022 — это гибридная конференция и первая очная ACL за три года. Всего около 3200 регистраций, из них половина людей присутствовали очно.

Программа конференции состояла из 3 частей:

  • 1 день занятий
  • 3 дня основной конференции
  • 2 дня мастер-классов

Основные конференции и семинары состоят из набора основных презентаций и нескольких постерных сессий.

Основные моменты

На этой конференции представлено слишком много хороших работ, чтобы я мог их подытожить. Из-за ограниченного времени я не присутствовал на каждой основной презентации, но тратил много времени на обсуждение с авторами на постерных сессиях. В основном я сосредоточился на треках о машинном обучении и многоязычии, извлечении информации, Zero-shot/Few-shot и других темах, которые привлекли мое внимание. Вот мои основные моменты!

Учебники

Я посетил два учебника, один утром, а другой после обеда.

В учебном пособии Обучение с ограниченными текстовыми данными с Дийи Янгом, Анкуром П. Парихом и Колином Раффелем был представлен обзор современных подходов к дополнению данных и частичному обучению с учителем для НЛП. Интересна следующая работа:

  • Chen et al., 2020 предлагает новый метод расширения большого количества расширенных обучающих выборок путем интерполяции текста в скрытом пространстве.

  • Du et al., 2022 представляет SentAugment, метод увеличения данных, который вычисляет вложения запросов для конкретных задач из помеченных данных для извлечения предложений из пула немаркированного набора данных.

Вывод таков: ни одно дополнение не работает лучше всего для каждой задачи, а дополнение не всегда повышает производительность.

Еще один урок, который я посетил, называется Предварительное обучение языку зрения: текущие тенденции и будущее с Айшварией Агравал, Дэмиеном Теней, Аидой Нематзаде. Цель этого урока состояла в том, чтобы дать нам обзор современных тенденций мультимодальных проблем, особенно зрения и языка. Во второй части этого урока ведущий попытался ответить на три вопроса:

  • Достаточно ли хороша модель потерь в замаскированной области, адаптированная из языковых моделей?
  • Важен ли перекрестный диалог между модальностями (через внимание)?
  • Что делает хороший набор данных для предварительной подготовки?

Основные конференции

Появляются некоторые модели НЛП без токенов

Модели без токенов означают, что они не полагаются на выученный словарь для сопоставления слов/подслов с токенами. Вместо этого они работают непосредственно с необработанными текстами.

  • Clark et al., 2022 представляет нейронный кодировщик, который кодирует непосредственно последовательности символов, который значительно превосходит многоязычную модель BERT в сложном многоязычном тесте;
  • Xue et al., 2022 представляет ByT5, который обрабатывает тексты как байты UTF-8 как на кодировщике (в 3 раза глубже, чем декодер), так и на декодере.

Все больше и больше статей анализируют методы подсказок.

С появлением чрезвычайно крупной модели GPT-1/2/3 процедура предобучение, точная настройка заменяется парадигмой предобучение, подсказка (Liu et al., 2021), во многих принятых в этом году документах был проведен некоторый анализ по этой теме.

  • Lu et al., 2022 демонстрирует, что порядок, в котором предоставляются образцы, может иметь огромное значение для производительности, и такие проблемы присутствуют для моделей разных размеров. Чтобы решить эту проблему, они предлагают метод построения синтетических наборов для разработки и выбора лучших перестановок-кандидатов в этом наборе на основе энтропийной статистики;

  • Методы подсказок используются не только в языковой проблеме, но и в мультимодальной проблеме. Jin et al., 2022 предлагает FEW VLM, модель преобразователя pre-train seq-2-seq с моделированием префиксного языка и моделированием маскированного языка и показывает, что значительное улучшение характеристик нулевого выстрела;
  • Существует также учебник НЛП с нулевым и малым количеством выстрелов с предварительно обученными языковыми моделями, в котором рассматриваются темы, связанные с обучением с подсказками, обучением в контексте и другими подходами с нулевым/несколько выстрелов.

Многоязычный

Многоязычные или межъязыковые проблемы всегда были в центре внимания, была проделана большая работа в разных аспектах:

  • Что касается качества наборов данных, Kreutzer et al., 2022 вручную анализирует качество нескольких многоязычных наборов данных, особенно для языков с низким уровнем ресурсов; Lee et al., 2022 обнаружили, что существующие наборы данных недостаточно дедуплицированы, а дедупликация обучающих данных снижает запоминание в 10 раз;
  • Что касается новых предварительно обученных моделей, назовите лишь некоторые из них: Feng et al., 2022 предлагает многоязычную модель встраивания предложений, охватывающую более 109 языков, на основе моделирования маскированного языка и моделирования языка перевода; Zhou et al., 2022 предлагает подход к построению базы знаний путем использования одноязычных троек и межъязыковых ссылок с помощью настройки языкового моделирования; De Cao et al., 2021 предлагает эффективный метод связывания сущностей путем прогнозирования сущностей путем создания их имен вместо выполнения поиска с точечным произведением среди элементов в базе знаний;
  • Для лучшей адаптации с одного языка на другой в Zhang et al., 2022 исследуются различные свойства нулевого переноса из предложений в документ при машинном переводе; Aepli et al., 2022 считает, что введение шума на уровне символов может помочь улучшить межъязыковую передачу, если два языка очень похожи.

Мастерские

Я посетил в основном два семинара: Электронная коммерция и НЛП (ECNLP) и Многоязычное мультимодальное обучение (MML).

ЕСНЛП

На этом семинаре есть много статей об извлечении атрибутов продукта. Среди них Fuches et al. 2022 рассматривает извлечение атрибутов продукта как проблему классификации с несколькими метками и отмечает, что модель CNN Seq2Seq (Gehring et al. 2017) превосходит модель на основе BERT и внутреннюю предварительно обученную языковую модель Ebay.

ММЛ

Один из выводов заключается в том, что все больше и больше исследователей НЛП прилагают усилия для улучшения языков с низким уровнем ресурсов либо в наборе данных (Аделани и др., 2021), либо в улучшенной предварительно обученной языковой модели (Алаби и др., 2022).

В заключение хочу сказать, что возможность присоединиться к такой замечательной конференции была прекрасным путешествием.

И последнее, но не менее важное: я хотел бы поблагодарить всех людей в Criteo, которые поддержали меня в участии в ACL 2022, а также поблагодарить всех организаторов, докладчиков из академических и промышленных кругов со всего мира, которые внесли свой вклад в ACL 2022.

Вы хотите присоединиться к ACL 2023 вместе с нами? Подайте заявку сейчас!