1. Сравнительное исследование предварительно обученных кодировщиков для распознавания именованных объектов с низким уровнем ресурсов (arXiv)

Автор:Юсюань Чен, Йонас Миккельсен, Арне Биндер, Кристоф Альт, Леонхард Хенниг

Аннотация. Предварительно обученные языковые модели (PLM) являются эффективными компонентами подходов к распознаванию именованных сущностей (NER), когда они дополняются непрерывной предварительной подготовкой на внедоменных данных для конкретной задачи или на точных данных. -настройка данных в домене. Однако их эффективность в сценариях с ограниченными ресурсами, где такие данные недоступны, остается открытым вопросом. Мы представляем структуру оценки кодировщика и используем ее для систематического сравнения производительности современных предварительно обученных представлений в задаче NER с низким уровнем ресурсов. Мы анализируем широкий спектр кодировщиков, предварительно обученных различным стратегиям, архитектурам моделей, тонкой настройке промежуточных задач и контрастному обучению. Наши экспериментальные результаты по десяти эталонным наборам данных NER на английском и немецком языках показывают, что производительность кодировщика значительно различается, что свидетельствует о необходимости тщательной оценки выбора кодировщика для конкретного сценария с низким уровнем ресурсов.

2. MINER: Улучшение распознавания именованных объектов, не входящих в словарь, с точки зрения теории информации (arXiv)

Автор:Сяо Ван, Шихан Доу, Лимао Сюн, Ичэн Цзоу, Ци Чжан, Тао Гуй, Лян Цяо, Чжаньчжань Чэн, Сюаньцзин Хуанг

Вывод:модель NER показала многообещающие результаты в стандартных тестах NER. Однако недавние исследования показывают, что предыдущие подходы могут чрезмерно полагаться на информацию об упоминании объектов, что приводит к низкой эффективности распознавания объектов вне словаря (OOV). В этой работе мы предлагаем MINER, новую структуру обучения NER, чтобы решить эту проблему с точки зрения теории информации. Предлагаемый подход содержит две взаимные задачи обучения, основанные на информации: i) максимизация обобщения информации, которая улучшает представление за счет глубокого понимания контекста и поверхностных форм объекта; ii) минимизация избыточной информации, которая препятствует репрезентации механического запоминания имен сущностей или использования предвзятых подсказок в данных. Эксперименты с различными настройками и наборами данных показывают, что он обеспечивает лучшую производительность при прогнозировании объектов OOV.

3. Двойная контрастная структура для межъязыкового распознавания именованных объектов с низким уровнем ресурсов (arXiv)

Автор:Инвэнь Фу, Нанкай Линь, Цзию Ян, Шэнъи Цзян.

Аннотация. Межъязыковое распознавание именованных сущностей (NER) в последнее время стало предметом исследований, поскольку оно может решить проблему нехватки данных для языков с низким уровнем ресурсов. Тем не менее, несколько исследований были сосредоточены на сценарии, когда данные, помеченные исходным языком, также ограничены в некоторых конкретных областях. Обычный подход для этого сценария заключается в создании большего количества обучающих данных с помощью метода преобразования или увеличения данных на основе генерации. К сожалению, мы обнаружили, что простое объединение данных исходного языка и соответствующего перевода не может полностью использовать переведенные данные, а полученные улучшения несколько ограничены. В этой статье мы описываем нашу новую двухконтрастную структуру ConCNER для межъязыкового NER при сценарии ограниченных данных, помеченных исходным языком. В частности, на основе образцов исходного языка и их переводов мы разрабатываем две сопоставительные цели для межъязыкового NER на разных грамматических уровнях, а именно: контрастное обучение переводу (TCL) для закрытия представлений предложений между переведенными парами предложений и контрастное обучение меткам (LCL). чтобы закрыть представления токенов в пределах одних и тех же меток. Кроме того, мы используем метод дистилляции знаний, в котором модель NER, обученная выше, используется в качестве учителя для обучения модели ученика на немаркированных данных целевого языка, чтобы лучше соответствовать целевому языку. Мы проводим обширные эксперименты на самых разных целевых языках, и результаты показывают, что ConCNER имеет тенденцию превосходить несколько базовых методов. Для воспроизводимости наш код для этой статьи доступен по адресу https://github.com/GKLMIP/ConCNER.

4. Распознавание федеративных именованных объектов (arXiv)

Автор:Джоэл Мэтью, Димитрис Стрипелис, Хосе Луис Амбите

Аннотация: мы представляем анализ производительности федеративного обучения в парадигматической задаче обработки естественного языка: распознавание именованных объектов (NER). Для нашей оценки мы используем независимый от языка набор данных CoNLL-2003 в качестве нашего эталонного набора данных и модель Bi-LSTM-CRF в качестве нашей эталонной модели NER. Мы показываем, что федеративное обучение достигает почти той же производительности, что и централизованная модель, хотя и с некоторым снижением производительности по мере того, как среда обучения становится более разнородной. Мы также показываем скорость сходимости федеративных моделей для NER. Наконец, мы обсуждаем существующие проблемы федеративного обучения для приложений НЛП, которые могут способствовать будущим направлениям исследований.