Техника, которая способствует более глубокому пониманию между разными языками

Согласно источникам в Интернете, общая численность населения мира, говорящего по-английски, составляет от 1 из 6 до 1 из 7. Несмотря на подавляющее меньшинство населения мира, говорящего по-английски, подавляющее большинство наборов данных на естественном языке для понимания и генерации, таких как Стэнфордский набор данных с ответами на вопросы (SQuAD) и наборы данных GLUE, а также крупномасштабные предварительно обученные модели, такие как BERT, RoBERTa и ALBERT, которые произвели революцию в мире НЛП, основаны исключительно на английском языке.

Однако в последнее время основное внимание уделяется другим языкам с созданием многоязычных крупномасштабных предварительно обученных моделей, таких как XLM и XLM-RoBERTa, и введением сложных многоязычных задач, таких как ответы на вопросы, классификация документов, поиск информации и многое другое. В последнее время XTREME и XGLUE представляют собой 2 коллекции многоязычных наборов данных, которые требуют, чтобы модели были хороши в нескольких задачах, чтобы хорошо работать на их табло.

Теперь давайте углубимся в то, как создаются эти многоязычные модели. Есть 2 основных подхода к этому:

  1. Изучение встраивания, которое характерно для всех языков мира (или того, что доступно для обучения по крайней мере). Это можно сделать, загрузив огромное количество текста на множестве языков в большую языковую модель, такую ​​как XLM или XLM-RoBERTa, чтобы изучить неявное встраивание (слово имеет другое встраивание в зависимости от контекст) или просто используя простую нейронную сеть, чтобы изучить явное встраивание, например Word2Vec (слово всегда сопоставляется с одним и тем же встраиванием)
  2. Перевод данных либо во время обучения (Translate-train), либо во время теста (Translate-test). Translate-train - это когда данные обучения с английского языка переводятся на иностранный язык, а переведенный текст добавляется в набор данных обучения. Translate-test - это когда данные на иностранном языке конвертируются в английский язык во время тестирования, и модель делает прогноз на основе этих данных на английском языке. Прогноз может быть переведен обратно на иностранный язык для таких задач, как ответы на вопросы или выбор диапазона, или это просто класс, который не требует перевода.

Несмотря на то, что набор данных в методе translate-train был дополнен переведенными предложениями на английском языке, входные данные по-прежнему относятся только к одному языку. Нигде в архитектуре «перевод-поезд» несколько языков не взаимодействуют друг с другом. Таким образом, translate-train - это больше метод увеличения объема данных, чем метод, способствующий пониманию нескольких языков.

Вдохновленные методом перевода и обучения, но с желанием заставить модель понимать отношения между двумя языками, исследователи из Microsoft Dynamics 365 AI Research предлагают новый способ обучения многоязычной модели под названием ФИЛЬТР . Входные данные для FILTER такие же, как и для любой модели обучения с переводом: предложение или абзац на английском (или любом другом исходном языке) (E) вместе с соответствующей переведенной версией на целевом иностранном языке (F) вы хотите тренироваться.

ФИЛЬТР - это также трехступенчатая архитектура, такая как поезд-переводчик. Но на этом сходство заканчивается. Если translate-train использует в качестве входных данных (E) и (F), то FILTER использует как (E), так и (F). . Оба этих предложения проходят через 2 копии (по одной для каждого языка) «локального» преобразователя, который имеет m слоев, чтобы изучить уникальные вложения для каждого из языков.

Выходной сигнал обоих этих «локальных» преобразователей затем передается в кросс-язычный «fusion» преобразователь с k слои. Здесь FILTER пытается собрать информацию и изучить взаимосвязь между (E) и (F).

Наконец, есть 2 «доменных» преобразователя (которые снова являются копиями друг друга), которые имеют 24- k - m слоев и являются как задача, так и язык. Метка, предоставляемая каждому преобразователю «домен», является меткой соответствующего языка.

Числа m и k - это гиперпараметры, которые также можно настроить в зависимости от задачи.

Для простых задач, таких как классификация, метки остаются одинаковыми на обоих языках, и можно легко обучить окончательные языковые слои. Но как насчет таких задач, как ответы на вопросы, распознавание сущностей или тегирование части речи? Ярлыки могут не применяться напрямую к целевому переведенному тексту из-за того, как разные языки структурируют свои предложения. Как вы тренируете целевую языковую часть модели?

У FILTER есть решение для этого, используя дистилляцию знаний. Сначала обучите модель учителя с помощью ФИЛЬТРА только с меткой исходного языка (обычно английского). Получив эту модель учителя, обучите модель ученика с метками на целевом языке, которые являются выходными данными конкретного целевого преобразователя задачи модели учителя. Таким образом, ученик узнает все скрытые знания, которыми обладает учитель.

Поскольку конечный трансформатор зависит от конкретной задачи, ФИЛЬТР можно легко применить для решения множества задач, просто заменив конечный трансформатор. Чтобы доказать возможность обобщения FILTER, исследователи применили его к многозадачным наборам данных XTREME и XGLUE. FILTER успешно справился с множеством задач, таких как ответы на вопросы на нескольких языках, поиск предложений, классификация пар предложений, распознавание именованных сущностей и многое другое, чтобы занять первое место в обеих этих сложных таблицах лидеров!

Вот ссылка на статью, если вы хотите узнать больше о модели FILTER, и нажмите здесь, чтобы увидеть больше наших публикаций и других работ.

Ссылки

  1. Hu, J .; Ruder, S .; Сиддхант, А .; Neubig, G .; Firat, O .; и Джонсон, М., 2020. Xtreme: многоязычный многозадачный тест для оценки межъязыкового обобщения. В Международной конференции по машинному обучению.
  2. Лян И, Дуан Н., Гонг И и др. XGLUE: новый эталонный набор данных для предварительного обучения, понимания и генерации кросс-языковых языков [J]. Препринт arXiv arXiv: 2004.01401, 2020.
  3. Ювэй Фанг, Шуохан Ван, Чжэ Гань, Сици Сунь, Цзинцзин Лю. 2020. ФИЛЬТР: усовершенствованный метод слияния для межъязыкового понимания языков. препринт arXiv arXiv: 2009.05166
  4. Инструмент перевода для преобразования текста с английского на иностранный и наоборот.