11 октября 2019 года в Facebook, Лондон прошел первый ежегодный саммит EurNLP, посвященный реальным проблемам НЛП как в академических кругах, так и в промышленности, охватывая фундаментальные и эмпирические исследования и объединяя новичков и экспертов на региональном уровне, особенно в и по Европе.

Саммит собрал около 200 участников и получил 179 действительных заявок, 57 из которых были приняты (уровень принятия 31,8%). Расписание включает основной доклад, 4 выступления спикеров и панельную дискуссию, все они записываются и могут быть найдены здесь. Кроме того, на саммите проводится стендовая сессия для стимулирования дискуссии между студентами и исследователями, охватывающая широкий круг тем, например, многоязычие, предвзятость в языке, машинное обучение, мультимодальность, создание текста и т. Д.

Этот пост состоит из двух частей: докладчик и панельная сессия и стендовая сессия, написанная с Хайся Чай из Гейдельбергского университета и HITS. Теперь начнем с первой части, последняя скоро будет обновлена.

Вера Демберг: Должно ли НЛП больше учитывать индивидуальные различия в языковой обработке?

Спикер обсуждает разногласия в человеческих аннотациях и изучает дисперсию аннотаций в зависимости от того, является ли она систематической, стабильной во времени и связана с определенными факторами, например, языковым опытом и знанием предметной области. Scholman and Demberg, 2017 показывают, что существуют большие различия в распределении для каждого участника в задаче вставки связки (см. рисунок ниже). Sanders et al. попросите аннотаторов завершить эксперимент в течение нескольких месяцев и показать, что человеческая аннотация стабильна с течением времени.

Дирк Хови: Чем больше слоев, тем больше ответственности

Спикер выделяет ряд источников смещения, таких как выбор данных, человеческие аннотации и дисперсия модели, а также обсуждает эволюцию ИИ от эвристической и логической модели к статистической и нейронной модели за последние десятилетия. Кроме того, докладчик подчеркивает, что нейронная модель может иметь дело со сложными проблемами в реальном мире, такими как генерация языков, однако трудно решить существующие проблемы, например, надежность, объяснимость, возможность обращения за помощью и справедливость.

Йоаким Нивр: близится ли конец контролируемого синтаксического анализа? Двенадцать лет спустя

Спикер рассматривает историю разбора зависимостей, охватывающую анализаторы на основе графов (GB) и переходов (TB). Kulmizev et al. показывают, что эти два парсера сопоставимы по коротким зависимостям, но парсеры TB деградируют быстрее, чем парсеры GB с увеличением длины зависимости из-за распространения ошибки (см. рисунок ниже), и разница в точности между двумя парсерами имеет тенденцию быть небольшой, когда подключение BERT. Спикер надеется, что в будущих исследованиях синтаксического анализа можно будет найти альтернативу структурированному прогнозированию и больше не потребуется явного наблюдения.

Бонни Уэббер: Неявные дискурсивные отношения сосуществуют с явными отношениями

Говорящий проводит нас через расхождения в аннотациях дискурсивных отношений с помощью явных сигналов и неявных выводов. Это свидетельство показано в бумаге с помощью экспериментов по соединению-вставке. На рисунке ниже показаны разногласия аннотаторов для отдельного случая, но эти разногласия могут не быть ошибками (подробности см. В статье).

Ион Андроутсопулос: встраивание биомедицинских онтологий путем совместного кодирования

Спикер рассматривает встраивание сети и его приложения, такие как прогнозирование ссылок в сети и классификации узлов, а затем обсуждает разницу между структурированным и контент-ориентированным подходами при моделировании сетей, где первый подход рассматривает только структуру сети, но игнорирует тексты, такие как биомедицинские онтологии, связанные с узлами. Подробности смотрите в газете.

Натали Шлютер: Нейросинтаксический анализ кажется таким простым. Это так?

Докладчик акцентирует внимание на вычислительной сложности синтаксических анализаторов на основе нейронных графов и демонстрирует формальное доказательство того, что алгоритмы декодирования проективного максимального остовного дерева (MST) не могут быть выполнены за субкубическое время в соответствии с гипотезой экспоненциального времени. Также докладчик обсуждает алгоритм Эйснера и способ его моделирования с помощью рекуррентных нейронных сетей. Подробности смотрите в газете.

Джемма Боледа: общая и ситуативная информация в распределенных представительствах

Спикер обсуждает взаимодействие между общим и ситуативным значением в распределенных репрезентациях и представил две недавние работы в этом направлении исследований. Первая работа посвящена краткосрочному сдвигу смысла (см. Рисунок ниже), в котором семантические изменения могут быть идентифицированы путем измерения контекстной изменчивости, а более поздняя работа относится к лексической неоднозначности в языковой модели на основе LSTM, где Предлагаемый метод заключается в проверке скрытых представлений в LSTM на предмет лексической и контекстной информации слов.

Реут Царфаты: проект "Пустые элементы"

Спикер вводит логику и диалог Пола Грайса, например: Не делайте вклад более информативным, чем требуется, что означает, что любую избыточную информацию можно корректно отбросить, а затем обсуждает пустые элементы между строками текста, например, drop предикаты (см. рисунок ниже) и перечисляет все пустые элементы (см. рисунок ниже).

Люсия Специа: К более целостным подходам к человеко-машинному общению

Спикер обсуждает машинный перевод в контексте модальности, утверждая, что мультимодальное обучение полезно в случае, когда входные тексты короткие, шумные, неоднозначные и так далее. Подробнее см. В статьях NAACL19 и ACL19.

Андре Мартинс: Beyond Sparsemax: Adaptively Sparse Transformers

Докладчик представляет альтернативу традиционному softmax, а именно sparsemax, который отображает нормализованное распределение вероятностей, полученное с помощью softmax, в распределение вероятностей в симплексе, что означает, что он может выводить разреженные вероятности. Функция потерь, индуцированная sparsemax, выпукла и везде дифференцируема. Дополнительные работы в этом направлении исследований включают обобщение, работающее на регуляризованных argmax и α-entmax преобразованиях.

Анджела Фан: Обрезка трансформеров во время вывода

Спикер выделяет основные проблемы в нейронных сетях, например чрезмерно параметризованные, избыточные, переобученные и слишком большие для прагматизма, а затем обсуждает потенциальные решения, такие как метод извлечения знаний и отсечения. В этом выступлении докладчик фокусируется на методе преобразователя обрезки, а именно LayerDrop, который может случайным образом отбрасывать слои во время обучения (см. Рисунок ниже) с небольшой потерей производительности. Аналогичные работы в этом направлении включают DistilBERT, TinyBERT и многие другие.

Рико Сеннрих: Чему трансформеры учатся в НЛП? Последние выводы из анализа моделей

Спикер обсуждает открытые вопросы в трансформаторах, например, как выявить важные головы, требующие внимания, и как обрезать неважные головы без снижения производительности. Важные заголовки обычно позиционны, синтаксичны и учитывают редкие токены (см. Рисунок ниже). Кроме того, на рисунке ниже показано, что большинство кочанов можно обрезать с небольшим снижением производительности. Другой доклад, представленный докладчиком, посвящен эволюции представлений в трансформере, в котором рассматривается, как репрезентации в трансформерах развиваются при обучении с различными целями обучения, например, машинный перевод, языковая модель и модель языка с масками.

На панельной сессии ведущие европейские исследователи из сообщества НЛП делятся опытом академических и промышленных кругов, а затем обсуждают разницу между ними. Больше всего мне нравится фраза Бонни Уэббер, которая сказала, что студенты могут задавать действительно простые вопросы. В промышленности реже пересматривать старые идеи. Подробности смотрите в Твиттере.

Поблагодарите организаторов за организацию этого грандиозного саммита и поблагодарите спонсоров за щедрые гранты на поездки!