Как работают модели нейронного языка, часть 4 (машинное обучение)

Интеграция лингвистической теории и нейронных языковых моделей(arXiv)

Аннотация:языковые модели на основе преобразователя недавно добились замечательных результатов во многих задачах, связанных с естественным языком. Тем не менее, производительность в списках лидеров обычно достигается за счет использования огромных объемов обучающих данных и редко за счет кодирования явных лингвистических знаний в нейронные модели. Это заставило многих усомниться в актуальности лингвистики для современной обработки естественного языка. В этой диссертации я представляю несколько тематических исследований, чтобы проиллюстрировать, как теоретическая лингвистика и нейронные языковые модели по-прежнему актуальны друг для друга. Во-первых, языковые модели полезны для лингвистов, предоставляя объективный инструмент для измерения семантической дистанции, что трудно сделать с помощью традиционных методов. С другой стороны, лингвистическая теория вносит свой вклад в исследования языкового моделирования, предоставляя рамки и источники данных для проверки наших языковых моделей на предмет конкретных аспектов понимания языка. Эта диссертация представляет три исследования, в которых исследуются различные аспекты интерфейса синтаксиса и семантики в языковых моделях. В первой части моей диссертации я применяю языковые модели к проблеме гибкости классов слов. Используя mBERT в качестве источника измерения семантического расстояния, я представляю доказательства в пользу анализа гибкости класса слов как направленного процесса. Во второй части моей диссертации я предлагаю метод измерения удивления на промежуточных слоях языковых моделей. Мои эксперименты показывают, что предложения, содержащие морфосинтаксические аномалии, вызывают удивление в языковых моделях раньше, чем семантические аномалии и аномалии здравого смысла. Наконец, в третьей части моей диссертации я адаптирую несколько психолингвистических исследований, чтобы показать, что языковые модели содержат знания о конструкциях структуры аргументов. Таким образом, моя диссертация развивает новые связи между обработкой естественного языка, лингвистической теорией и психолингвистикой, чтобы обеспечить новые перспективы для интерпретации языковых моделей.

2.Обучение моделей нейронных языков с большим словарным запасом с помощью частного федеративного обучения для устройств с ограниченными ресурсами(arXiv)

Автор: Минбинь Сюй, Цунчжэн Сун, Е Тянь, Неха Агравал, Филип Гранквист, Рогир ван Дален, Сяо Чжан, Артуро Аргуэта, Шии Хань, Яцяо Дэн, Лео Лю, Анмол Валиа, Алекс Джин

Аннотация. Федеративное обучение (FL) — это метод обучения моделей с использованием данных, распределенных по устройствам. Дифференциальная конфиденциальность (DP) предоставляет официальную гарантию конфиденциальности конфиденциальных данных. Наша цель — обучить большую языковую модель нейронной сети (NNLM) на устройствах с ограниченными вычислительными возможностями, сохраняя при этом конфиденциальность с помощью FL и DP. Однако DP-шум, вносимый в модель, увеличивается с ростом размера модели, что часто препятствует сходимости. Мы предлагаем Partial Embedding Updates (PEU) — новый метод уменьшения шума за счет уменьшения размера полезной нагрузки. Кроме того, мы используем низкоранговую адаптацию (LoRA) и оценку контрастности шума (NCE), чтобы уменьшить требования к памяти для больших моделей на устройствах с ограниченными вычислительными ресурсами. Эта комбинация методов позволяет обучать языковые модели с большим словарным запасом, сохраняя при этом точность и конфиденциальность.

Как работают модели нейронного языка, часть 4 (машинное обучение)

Вопросы по теме