1. Пересмотр влияния утечки на синтаксический анализ зависимостей (arXiv)

Автор: Натаниэль Краснер, Мириам Ваннер, Антониос Анастасопулос.

Аннотация: Недавняя работа Søgaard (2020) показала, что, помимо размера банка деревьев, перекрытие между обучающими и тестовыми графами (называемое утечкой) объясняет наблюдаемые различия в производительности синтаксического анализа зависимостей в большей степени, чем другие объяснения. В этой работе мы пересматриваем это утверждение, проверяя его на большем количестве моделей и языков. Мы обнаружили, что это верно только для нулевых межъязыковых настроек. Затем мы предлагаем более точную меру такой утечки, которая, в отличие от исходной меры, не только объясняет, но и коррелирует с наблюдаемыми изменениями производительности. Код и данные доступны здесь: https://github.com/miriamwanner/reu-nlp-project

2. Анализ зависимостей Zero-Shot с помощью автоматизированного обучения с учетом наихудших случаев (arXiv)

Автор: Мирьям де Лоно, Шэн Чжан, Андерс Согаард.

Аннотация :: Было обнаружено, что большие многоязычные предварительно обученные языковые модели, такие как mBERT и XLM-RoBERTa, удивительно эффективны для межъязыкового переноса моделей синтаксического анализа (Wu and Dredze 2019), но только между родственными языками. Однако исходный язык и язык обучения редко связаны между собой при разборе действительно малоресурсных языков. Чтобы восполнить этот пробел, мы используем метод многозадачного обучения, основанный на автоматизированном изучении учебной программы, для динамической оптимизации производительности синтаксического анализа на языках, отличающихся от других. Мы показываем, что этот подход значительно лучше, чем равномерная выборка, пропорциональная размеру, в условиях нулевого выстрела.