Наши основные моменты и лучшие доклады конференции EMNLP 2021

На прошлой неделе состоялась гибридная конференция EMNLP 2021, в которой приняли участие более 491 участника и 3156 онлайн-участников, включая трех членов команды Deepset, представивших наше исследование. EMNLP — это хорошо зарекомендовавшая себя конференция по исследованиям эмпирических методов обработки естественного языка, которая проводится ежегодно с 1996 года. В этом году было представлено 11 425 авторов, и это впервые было смешанное мероприятие. Вот наши основные моменты и подборка отмеченных наградами статей и тех, которые мы нашли наиболее интересными.

1. Основной доклад о междокументном НЛП

Лейтмотив «Куда дальше? На пути к многотекстовому потреблению с помощью трех вдохновленных направлений исследований», Идо Даган из Университета Бар-Илан, Израиль, касался трех направлений исследований, направленных на продвижение многотекстового потребления: взаимодействие с приложениями НЛП, моделирование многотекстовой информации и представление минимальной информации. единицы измерения. Например, интересными темами для будущей работы являются методы оценки для интерактивного суммирования, ответы на вопросы с несколькими переходами, языковое моделирование между документами (прогнозирование замаскированных токенов на основе нескольких документов с помощью Longformer), выравнивание документов на уровне предложений и использование пар вопрос-ответ. как представления информации.

Слайды не опубликованы, но Идо Даган является соавтором несколько последних публикаций на эту тему: Далее одна из участниц поделилась своими заметками здесь. Спасибо Чжицзин Джин!

2. Сходство ответов для оценки ответа на вопрос

Оценка моделей ответов на вопросы основывается на достоверных аннотациях. Однако, если правильным ответом на вопрос является имя объекта, его псевдонимы обычно не аннотируются и, следовательно, не будут распознаваться как правильные ответы. В своей статье Что в имени? Эквивалентность ответов для ответов на открытые вопросы, Si et al. извлекали псевдонимы из баз знаний и использовали их в качестве дополнительных правдивых ответов при оценке и обучении. Было воодушевляюще видеть, что Si et al. у нас была та же мотивация, что и у нашей команды для нашей статьи о семантическом сходстве ответов (SAS), но в итоге она использовала совершенно другой подход. Мы мило побеседовали о связях между двумя подходами. Наслаждайтесь просмотром этого забавного 7-минутного видео из статьи Si et al. и чтение этого сообщения в блоге о SAS.

3. Мультидоменные многоязычные ответы на вопросы

Учебное пособие Авирупа Сила и Себастьяна Рудера состояло из двух частей: одна часть касалась ответов на многодоменные вопросы, а другая - ответы на многоязычные вопросы. Нашими основными моментами были обзор многих многодоменных наборов данных, сделанный Авирупом Силом и Себастьяном Рудером, упомянув наше семантическое сходство ответов (SAS) в качестве альтернативного метода оценки. Слайды выложены здесь.

Учебник был также освежающим, потому что он состоялся всего через день после Семинара по машинному чтению для ответов на вопросы (MRQA). Таким образом, после глубокого технического погружения в самые последние статьи было хорошо получить хорошо структурированное резюме результатов, полученных за последние несколько лет.

4. Награды EMNLP за лучшую работу

Как и каждый год, несколько статей были отобраны для награды за лучшую статью или почетного упоминания.

Награду за лучшую длинную статью получили Liu et al. за статью Визуально обоснованное мышление в разных языках и культурах. Они создали многоязычный набор данных для мультикультурного рассуждения о видении и языке (MaRVL), который состоит из утверждений носителей языка о парах изображений, которые можно использовать для рассуждений, различая, является ли каждое обоснованное утверждение истинным или ложным. Его можно скачать здесь.

Ян и др. выиграли награду за лучшую короткую статью за статью ХОРАЛ: собираем ярлыки реакции на юмор от миллионов пользователей социальных сетей. Они собрали и проанализировали набор данных постов в Facebook, связанных с COVID-19 и ярлыками реакции на юмор. Приятно видеть усилия и признание, полученные за эту работу, ориентированную на данные. Хотя в документе нет ссылки на набор данных, авторы пообещали свободно делиться данными и метками с академическими кругами, поэтому вам нужно будет связаться с ними напрямую.

Однако наш интерес привлекла одна из статей, отмеченных как выдающаяся:

SituatedQA: включение экстралингвистических контекстов в QA Чжан и Чой. Они утверждают, что тесты QA с открытым поиском должны включать экстралингвистический контекст, такой как временной или географический контекст, и обнаружили, что примерно 16,5% NQ-Open дают ответы, зависящие от контекста.

5. Тематическое разнообразие на конференции EMNLP и ее семинарах:

Обработка естественного языка — это такая разнообразная область, и эта конференция и ее семинары еще раз показали это! Была статья об Активном обучении картографии, где наиболее информативные экземпляры для маркировки определяются во время обучения на наборе данных классификации текста. Другая статья была посвящена Квадратичным формам с малым объемом ресурсов для встраивания графов знаний, где представлен эффективный в вычислительном отношении подход к прогнозированию связей между сущностями и отношениями графов знаний.

Переосмысление целей экстрактивных ответов на вопросы касалось предположения о независимости для моделирования вероятности охвата (вероятности начала и конца индекса) при экстрактивных ответах на вопросы. Трудно описать это разнообразие, поэтому посмотрите процедуры, чтобы убедиться в этом.

6. Извлечение таблицы, поиск таблицы и ответы на вопросы таблицы

После интеграции поиска по таблицам и ответов на вопросы по таблицам в Стог сена приятно видеть, что эти темы также привлекают все больше и больше внимания в исследовательском сообществе. В частности, существует Тематическая переносимая таблица ответов на вопросы Чемменгата и др., которые автоматически генерируют пары вопрос-ответ из таблиц с использованием модели T5 SQL-to-Question. Другой документ в EMNLP — FINQA: набор данных численного обоснования финансовых данных, основанный на наборе данных FinTabNet таблиц, извлеченных из финансовых отчетов.

7. Надежность модели и производительность вне домена

Бартоло и др. представили свою статью Повышение надежности модели ответов на вопросы с помощью синтетической состязательной генерации данных, в которой они рассматривают надежность модели и производительность вне предметной области, используя генерацию вопросов и ответов, способствующую разнообразию, для уменьшения разреженности обучающих наборов. Их подход приводит к большей надежности на двенадцати различных наборах данных, и они обнаружили, что использование синтетических данных улучшает внедоменную производительность во всех задачах MRQA (включая проблемы доменных корпусов, вариации вопросов, состязательные примеры и шум) примерно в 10 раз. %.

8. Взаимодействие на гибридных конференциях — лучшее из обоих миров?

Мы решили не ехать на Карибы всего на несколько дней, хотя мы определенно с нетерпением ждем возможности снова посетить конференции на месте. Тем не менее: гибридная установка позволила посещать панельные дискуссии и обучающие программы в прямом эфире, а также смотреть записи других выступлений в любое время. Мы познакомились со столькими людьми, особенно на постерных сессиях в Сборе! Например, мы побеседовали с Патриком Льюисом о Dense Passage Retrieval и Table Retrieval (учебники доступны здесь и здесь), Максимом Де Брюйном (поздравляем с наградой за лучшую работу!), который посетил один из наших Открытых НЛП. Meetup» в этом году, Martin Fajcik (поздравляем с почетным упоминанием!), Joumana Ghosn, у которого появилась вдохновляющая идея по оценке GermanQuAD после машинного перевода данных на английский, а затем обратно на немецкий, Chenglei Si, который работал над сходством ответов в ответ на вопрос Алиша Захария, которая работает в группе по анализу данных страховой компании, Пранав Манерикер, доктор философии. студент Университета штата Огайо Тони Кукурин, старший научный сотрудник Bloomberg.

Если у нас не было возможности встретиться на EMNLP, и вы хотели бы поговорить о нейронном поиске, не стесняйтесь обращаться к нам. Например, присоединившись к нашему сообществу Discord или нашей Открытой группе НЛП, следующая виртуальная встреча состоится в январе 2022 года. Если вам интересно попробовать Haystack — нашу структуру НЛП для нейронного поиска и ответов на вопросы, ознакомьтесь с repo на GitHub (и, надеюсь, поставьте нам звезду)!