Основные моменты ACL 2022

С 22 по 27 мая я ездил в прекрасный город Дублин, чтобы принять участие в 60-м ежегодном собрании Ассоциации компьютерной лингвистики (ACL).

Обзор ACL 2022

Конференция ACL предназначена для обмена исследовательскими идеями и достижениями в области обработки естественного языка (NLP).

ACL 2022 — это гибридная конференция и первая очная ACL за три года. Всего около 3200 регистраций, из них половина людей присутствовали очно.

Программа конференции состояла из 3 частей:

1 день занятий
3 дня основной конференции
2 дня мастер-классов

Основные конференции и семинары состоят из набора основных презентаций и нескольких постерных сессий.

Основные моменты

На этой конференции представлено слишком много хороших работ, чтобы я мог их подытожить. Из-за ограниченного времени я не присутствовал на каждой основной презентации, но тратил много времени на обсуждение с авторами на постерных сессиях. В основном я сосредоточился на треках о машинном обучении и многоязычии, извлечении информации, Zero-shot/Few-shot и других темах, которые привлекли мое внимание. Вот мои основные моменты!

Учебники

Я посетил два учебника, один утром, а другой после обеда.

В учебном пособии Обучение с ограниченными текстовыми данными с Дийи Янгом, Анкуром П. Парихом и Колином Раффелем был представлен обзор современных подходов к дополнению данных и частичному обучению с учителем для НЛП. Интересна следующая работа:

Chen et al., 2020 предлагает новый метод расширения большого количества расширенных обучающих выборок путем интерполяции текста в скрытом пространстве.

Du et al., 2022 представляет SentAugment, метод увеличения данных, который вычисляет вложения запросов для конкретных задач из помеченных данных для извлечения предложений из пула немаркированного набора данных.

Вывод таков: ни одно дополнение не работает лучше всего для каждой задачи, а дополнение не всегда повышает производительность.

Еще один урок, который я посетил, называется Предварительное обучение языку зрения: текущие тенденции и будущее с Айшварией Агравал, Дэмиеном Теней, Аидой Нематзаде. Цель этого урока состояла в том, чтобы дать нам обзор современных тенденций мультимодальных проблем, особенно зрения и языка. Во второй части этого урока ведущий попытался ответить на три вопроса:

Достаточно ли хороша модель потерь в замаскированной области, адаптированная из языковых моделей?
Важен ли перекрестный диалог между модальностями (через внимание)?
Что делает хороший набор данных для предварительной подготовки?

Основные конференции

Появляются некоторые модели НЛП без токенов

Модели без токенов означают, что они не полагаются на выученный словарь для сопоставления слов/подслов с токенами. Вместо этого они работают непосредственно с необработанными текстами.

Clark et al., 2022 представляет нейронный кодировщик, который кодирует непосредственно последовательности символов, который значительно превосходит многоязычную модель BERT в сложном многоязычном тесте;
Xue et al., 2022 представляет ByT5, который обрабатывает тексты как байты UTF-8 как на кодировщике (в 3 раза глубже, чем декодер), так и на декодере.

Все больше и больше статей анализируют методы подсказок.

С появлением чрезвычайно крупной модели GPT-1/2/3 процедура предобучение, точная настройка заменяется парадигмой предобучение, подсказка (Liu et al., 2021), во многих принятых в этом году документах был проведен некоторый анализ по этой теме.

Lu et al., 2022 демонстрирует, что порядок, в котором предоставляются образцы, может иметь огромное значение для производительности, и такие проблемы присутствуют для моделей разных размеров. Чтобы решить эту проблему, они предлагают метод построения синтетических наборов для разработки и выбора лучших перестановок-кандидатов в этом наборе на основе энтропийной статистики;

Методы подсказок используются не только в языковой проблеме, но и в мультимодальной проблеме. Jin et al., 2022 предлагает FEW VLM, модель преобразователя pre-train seq-2-seq с моделированием префиксного языка и моделированием маскированного языка и показывает, что значительное улучшение характеристик нулевого выстрела;
Существует также учебник НЛП с нулевым и малым количеством выстрелов с предварительно обученными языковыми моделями, в котором рассматриваются темы, связанные с обучением с подсказками, обучением в контексте и другими подходами с нулевым/несколько выстрелов.

Многоязычный

Многоязычные или межъязыковые проблемы всегда были в центре внимания, была проделана большая работа в разных аспектах:

Что касается качества наборов данных, Kreutzer et al., 2022 вручную анализирует качество нескольких многоязычных наборов данных, особенно для языков с низким уровнем ресурсов; Lee et al., 2022 обнаружили, что существующие наборы данных недостаточно дедуплицированы, а дедупликация обучающих данных снижает запоминание в 10 раз;
Что касается новых предварительно обученных моделей, назовите лишь некоторые из них: Feng et al., 2022 предлагает многоязычную модель встраивания предложений, охватывающую более 109 языков, на основе моделирования маскированного языка и моделирования языка перевода; Zhou et al., 2022 предлагает подход к построению базы знаний путем использования одноязычных троек и межъязыковых ссылок с помощью настройки языкового моделирования; De Cao et al., 2021 предлагает эффективный метод связывания сущностей путем прогнозирования сущностей путем создания их имен вместо выполнения поиска с точечным произведением среди элементов в базе знаний;
Для лучшей адаптации с одного языка на другой в Zhang et al., 2022 исследуются различные свойства нулевого переноса из предложений в документ при машинном переводе; Aepli et al., 2022 считает, что введение шума на уровне символов может помочь улучшить межъязыковую передачу, если два языка очень похожи.

Мастерские

Я посетил в основном два семинара: Электронная коммерция и НЛП (ECNLP) и Многоязычное мультимодальное обучение (MML).

ЕСНЛП

На этом семинаре есть много статей об извлечении атрибутов продукта. Среди них Fuches et al. 2022 рассматривает извлечение атрибутов продукта как проблему классификации с несколькими метками и отмечает, что модель CNN Seq2Seq (Gehring et al. 2017) превосходит модель на основе BERT и внутреннюю предварительно обученную языковую модель Ebay.

ММЛ

Один из выводов заключается в том, что все больше и больше исследователей НЛП прилагают усилия для улучшения языков с низким уровнем ресурсов либо в наборе данных (Аделани и др., 2021), либо в улучшенной предварительно обученной языковой модели (Алаби и др., 2022).

В заключение хочу сказать, что возможность присоединиться к такой замечательной конференции была прекрасным путешествием.

И последнее, но не менее важное: я хотел бы поблагодарить всех людей в Criteo, которые поддержали меня в участии в ACL 2022, а также поблагодарить всех организаторов, докладчиков из академических и промышленных кругов со всего мира, которые внесли свой вклад в ACL 2022.

Вы хотите присоединиться к ACL 2023 вместе с нами? Подайте заявку сейчас!

Карьера в Criteo | Вакансии Criteo
Ищите возможности везде. Выберите следующую задачу. careers.criteo.com