Современные предварительно обученные многоязычные языковые модели (LM) стремятся представить более 100 языков в одной модели. Однако, несмотря на то, что их современные результаты обеспечивают межъязыковую передачу, такие многоязычные модели часто неспособны справедливо представлять свой разнообразный набор языков из-за ограниченных возможностей, искаженных данных предварительного обучения и неоптимальных словарей.

Хотя языковые модели, обученные на больших пользовательских словарях, могут избежать этих проблем, им не хватает сильных возможностей межъязыковой передачи, как у многоязычных LM.

Стремясь объединить «лучшее из обоих миров», команда Google Research предложила MergeDistill, структуру для объединения предварительно обученных LM учителей из нескольких одноязычных и многоязычных LM в единую многоязычную LM ученика, не зависящую от задач. Подход разработан, чтобы использовать возможности мощных языковых LM, оставаясь при этом многоязычным и обеспечивая положительную производительность языковой передачи.

Для достижения своей цели команда использует метод дистилляции знаний (KD), предложенный Hinton et al. в 2015 году. В большинстве приложений LM KD используется для сжатия больших моделей учителей в более мелкие модели учеников для однозадачных задач. Но KD также может использоваться в сценариях, не зависящих от задач, с целями предварительного обучения, такими как моделирование замаскированного языка (MLM), для получения модели студента, не зависящей от задач.

В статье MergeDistill: объединение предварительно обученных языковых моделей с использованием дистилляции исследователи сосредотачиваются на объединении нескольких предварительно обученных LM в одну многоязычную LM учащегося в независимой от задачи настройке. Команда заявляет, что это первое исследование подобного рода, и суммирует их вклад следующим образом:

  1. MergeDistill - это не зависящий от задачи подход дистилляции, позволяющий объединить несколько LM учителей на этапе предварительной подготовки, чтобы подготовить сильную многоязычную LM ученика, которую затем можно настроить для любой задачи на всех языках в LM ученика. Подход более удобен в обслуживании (меньше моделей), эффективен в вычислениях и не зависит от архитектуры учителя (поскольку мы получаем автономные прогнозы).
  2. MergeDistill используется для i) объединения одноязычных LM учителей в единую многоязычную LM ученика, которая конкурирует с отдельными учителями или превосходит их; ii) комбинирует многоязычные LM учителей, так что перекрывающиеся языки могут учиться у нескольких учителей.
  3. С помощью обширных экспериментов и анализа мы изучаем важность типологического сходства при построении многоязычных моделей, а также влияние сильных словарей и предсказаний LM учителя на нашу структуру.

Входные данные предлагаемого MergeDistill - это набор предварительно обученных LM учителей и корпуса переводов для всех языков, которые будут использоваться для обучения LM студента. Набор предварительно обученных ЛМ учителей в данной работе состоит из четырех моделей ЛМ. Три одноязычных LM обучаются на английском, испанском и корейском языках соответственно, а многоязычные LM обучаются на английском и хинди.

Первым шагом в обучении LM ученика из нескольких LM учителя является токенизация корпусов и масок для предварительного обучения для каждого языка с помощью токенизатора LM соответствующего учителя. Затем метод получает прогнозы и логиты для каждого замаскированного, токенизированного примера на каждом языке, оценивая соответствующие LM учителя. Следующим шагом является отображение словарного запаса, в котором входные индексы, индексы прогнозирования и индексы с золотой меткой, полученные после оценки от каждого LM учителя, обрабатываются с использованием карты словарного запаса от учителя к ученику. Наконец, имея под рукой обработанные входные индексы, индексы прогнозирования и индексы золотой метки, исследователи обучают своего многоязычного ученика LM с целью моделирования замаскированного языка (MLM), используя предсказания учителя в качестве программных меток и минимизируя перекрестную энтропию между учеником и учителем. раздачи.

Команда провела интенсивные эксперименты с текстовыми данными Википедии, чтобы оценить эффективность предложенного ими подхода MergeDistill. Они сообщили баллы F1 для задач структурированного прогнозирования (NER, POS), точности (Acc), баллов для задач классификации предложений (XNLI, PAWS-X) и баллов F1 / точного соответствия (F1 / EM) для задач с ответами на вопросы (XQuAD, MLQA, TyDiQA).

В своем эксперименте с одноязычными LM учителя команда использовала уже существующие одноязычные LM учителя для обучения LM ученика. Результаты показывают, что на каждом языке полученный LM учащегося был либо конкурентоспособным, либо превосходил LM соответствующего учителя, подтверждая способность MergeDistill эффективно обучать LM многоязычного учащегося с помощью LM одноязычного учителя.

В случае обучения многоязычных учителей LM, команда использовала многоязычные модели mBERT и MuRIL (Multilingual Representations for Indian Languages, 2020) для обучения студентов LM на тесте XTREME. Результаты показывают, что на языках, не относящихся к MuRIL, ученик LM превзошел учителя (mBERT) со средним относительным баллом 3,8 процента. На языках MuRIL ученик LM превзошел учителя mBERT на 8,8 процента, но уступил учителю MuRIL на 3,8 процента.

В целом, исследование демонстрирует эффективность и потенциал предлагаемого подхода MergeDistill в преодолении разрыва между постоянно расширяющейся вселенной сильных языковых моделей и доказанной кросс-языковой эффективностью многоязычных LM.

Статья MergeDistill: объединение предварительно обученных языковых моделей с использованием дистилляции находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.