Мысли и теория

Массовая предварительная подготовка для двуязычного машинного перевода

Экскурсия по mBART, языковой модели кодировщика-декодера, которая открывает интересные перспективы для многоязычных задач, связанных с последовательностью.

Примечание. Это первая статья из трех.
Массовый предварительный тренинг для двуязычного машинного перевода (этот)
Многоязычная точная настройка mBART50 (вторая часть)
Перевод речи с mBART (еще не выпущен) .

Если вы работали над какими-либо задачами обработки естественного языка (НЛП) в течение последних трех лет, вы наверняка заметили широкое использование BERT или аналогичных крупных предварительно обученных моделей в качестве основы для точной настройки интересующей задачи для достижения выдающихся результатов. .

Предварительно обученные модели позволяют достичь высокой точности в последующей задаче с относительно небольшими данными и временем обучения. Благодаря своему массовому предварительному обучению они уже многое узнали о статистической структуре естественного языка и должны научиться отвечать для конкретной задачи. Однако из-за их огромного размера у большинства людей нет необходимых ресурсов для обучения одного из них, и им приходится полагаться на публично существующие модели.

Несмотря на их широкое использование в НЛП, предварительно обученные модели до сих пор имели относительно низкое влияние на машинный перевод (МП). Конечно, были попытки, такие как [1], [2], [3] или [4] (для перевода на уровне документа), но их влияние было ограниченным, и они не были широко применяется на практике.

На мой взгляд, у такого ограниченного воздействия есть три причины:

  1. Машинный перевод - задача с очень большими ресурсами для наиболее изученных языковых пар.
  2. Модели машинного перевода следуют структуре кодер-декодер, в то время как предварительно обученные модели состоят только из кодировщика, поэтому для их использования для МП требуется некоторая адаптация.
  3. Эти модели очень велики, и время их вычисления во время логического вывода может быть недопустимым с архитектурой кодера-декодера.

mBART, модель кодировщика-декодера, предварительно обученная на массивных многоязычных данных, призвана изменить правила игры для машинного перевода и связанных с ним задач.

mBART: Что это такое и как его тренируют?

mBART [5] - это основанная на преобразователе [6] модель кодировщика-декодера, которая предварительно обучена на одноязычных данных из многих языков для точной настройки на задачи машинного перевода. В исследуемой нами статье [5] он обучается на 25 европейских и азиатских языках из разных языковых семей, собранных с помощью общего обхода (CC25).

Целью обучения является снижение шумоподавления. Учитывая входную последовательность X, модель получает в качестве входных данных на стороне источника поврежденную версию X генерируется функцией шума g (X). На целевой стороне цель состоит в том, чтобы восстановить исходную последовательность с помощью авторегрессивного декодирования.

Функция шума случайным образом маскирует 35% входных токенов в последовательных интервалах. Более того, одновременно вводятся несколько предложений, и функция шума также меняет их порядок. Предварительное обучение с несколькими входными предложениями позволяет точно настроить модель для машинного перевода на уровне документа.

Сама модель имеет огромный размер: 12 слоев как в кодировщике, так и в декодере, с размером модели 1024 единицы и 16 внимательными головами, что в общей сложности составляет около 680 миллионов параметров. Ничего особенного по сравнению с GPT-3, но все равно требует много вычислительных ресурсов для обучения!

Обучение выполняется с использованием 256 графических процессоров Nvidia V100 для 500 000 шагов, что составляет 2,5 недели обучения, несмотря на огромную вычислительную мощность и использование точности float16 для более быстрого обучения. Не пытайтесь сделать это дома!

Тонкая настройка

Авторы отрегулировали эту модель в двуязычной среде для всех 25 языков предварительного обучения. Английский всегда является одним из двух языков в паре. Кроме того, тонкая настройка выполняется как для машинного перевода на уровне предложений, так и на уровне документа. Такие модели сравниваются с различными базовыми уровнями, включая предварительно обученный mBART на меньшем количестве языков (2 или 6), одноязычный BART и случайную инициализацию.

Языковые пары делятся на:

  • нехватка ресурсов: ‹1 млн пар предложений
  • средние ресурсы: ‹10 млн пар предложений
  • большие ресурсы: ›10 млн пар предложений

Результаты можно резюмировать следующим образом:

  • Значительный рост баллов BLEU для языковых пар с низким и средним уровнем ресурсов. Это отличает полезные системы от неиспользуемых, поскольку многие результаты улучшаются более чем на 10 баллов BLEU.
  • mBart не помогает для языковых пар с крайне ограниченными ресурсами (‹10 тыс. пар предложений), но прочтите раздел об обучении без учителя, чтобы узнать, как это было преодолено.
  • Незначительный выигрыш для языковых пар с высоким уровнем ресурсов и немногим более 10 миллионов пар предложений. Для языков с самым высоким уровнем ресурсов наблюдается снижение оценки BLEU.
  • Обратные переводы [7] предлагают дальнейшее улучшение по сравнению с предварительным обучением mBART. Однако во время предварительного обучения могут потребоваться большие одноязычные данные по целевому языку, чтобы быть действительно полезными.
  • Предварительное обучение на многих языках более полезно, когда у целевой языковой пары мало ресурсов. Когда доступно много ресурсов, большее количество языков снижает производительность. Возможно, в этом случае модель исчерпала свои возможности.

Предварительное обучение по-прежнему бесполезно для языковых пар с очень высокими ресурсами, но некоторые улучшения результатов просто огромны для других языков. И одна предварительно обученная модель может произвести их все.

Кроме того, я понимаю, что один и тот же набор гиперпараметров используется для всех пар целевого языка, поэтому, вероятно, можно получить еще лучшие результаты при тщательной настройке. Очевидно, то же самое можно сказать и о базовых показателях, но я не думаю, что этот пробел можно значительно сократить.

Затем авторы радуют нас исследованием влияния mBART на языки, невидимые во время тонкой настройки.

Тонкая настройка на невидимых языках

В другом эксперименте авторы тренируют mBART на 2 или 6 языках, а затем настраивают его на языковых парах, в которых хотя бы один язык не виден во время предварительного обучения. Результаты следующие:

  • Предварительное обучение mBART действительно полезно также для невидимых языков. Наличие схожих языков в предварительном обучении полезно, но не обязательно, и также необязательно иметь алфавит нового языка в исходном модельном словаре.
  • Тонкая настройка на двух невидимых языках приводит к худшим результатам, чем на одном невидимом языке. Всегда используйте все доступные данные!
  • Результаты хуже, когда невидимый язык находится на стороне источника. Обобщение на исходной стороне кажется более трудным, чем на целевой стороне.

В целом, модель кодер-декодер изучает особенности целевой стороны в кодировщике, в то время как работа для декодера проще (см., Например, [8]). Это могло бы объяснить, почему труднее получить лучшие результаты с невидимым исходным языком. Такое поведение наблюдалось для разных задач и разных способов ввода. Я лично считаю, что это связано с моделью внимания, которая позволяет кодировщику получать много информации от целевой стороны во время обратного распространения. Однако я не могу сформулировать здесь теорию и не знаю, изучалось ли это явление подробно. Если нет, то это интересная тема для исследования.

Несмотря на большой объем информации, до сих пор не хватает двух экспериментов: тонкой настройки машинного перевода на уровне документа и тонкой настройки неконтролируемого обучения.

Документ-уровень MT

Эксперимент проводится по точной настройке моделей на WMT 19 EN-DE и TED15 EN-ZH в обоих направлениях. Базовый план - это модель (HAN [9]), разработанная специально для задач уровня документа с использованием иерархической структуры документов. Тем не менее, [9] был опубликован в 2018 году, и я не уверен, что не может быть найдено лучших исходных условий.

Результаты показывают, что при работе на уровне предложения модели, предварительно обученные на mBART, работают намного лучше, чем идентичные модели, инициализированные случайным образом. Более того, только доработанная версия может дать значимый результат на уровне документа. Предыдущая работа [10] применила потерю BERT, включая распознавание, принадлежат ли два предложения одному и тому же документу, и смогла обучить модели на уровне документа без предварительного обучения. Очевидно, необходимы потери на уровне документа, но их можно использовать на разных этапах обучения. Если это сделать во время предварительного обучения, этап тонкой настройки станет проще.

В конечном итоге предварительно обученные модели превосходят HAN, а также их аналоги, оптимизированные на уровне предложений. Это также согласуется с [10] и неудивительно, поскольку МП на уровне предложений может принимать предложения, которые являются неоднозначными, когда они находятся вне контекста, но точно переводимы, когда помещаются в более широкий контекст.

Наконец, авторы также показывают, что mBART - отличная инициализация для неконтролируемого MT.

Неконтролируемый MT

Последний эксперимент направлен на оценку mBART в условиях обучения без учителя. Авторы предлагают два сценария двуязычного машинного обучения без учителя:

  1. Обучение через обратный перевод:
    модель, инициализированная с помощью mBART, используется для генерации «на лету» обратных переводов с целевого языка на исходный и таким образом изучения двуязычной задачи. Это единственно возможный сценарий, когда параллельный текст не указан.
  2. Обучение посредством языковой передачи:
    модель, инициализированная с помощью mBART, точно настраивается на языковой паре и оценивается на другой языковой паре с тем же целевым языком. Это обучение полезно, когда существуют параллельные данные для целевого языка, но не для пары исходный-целевой.

Результаты здесь неоднозначны, но можно найти некоторые закономерности.

  • Для неконтролируемого машинного перевода на основе обратного перевода:
    mBART аналогичен более традиционным подходам при тонкой настройке на похожих языках, в то время как он предоставляет первые невырожденные результаты для разных языков . Мы по-прежнему говорим о моделях, которые нельзя использовать на практике, но это важный первый шаг.
  • Для языкового переноса:
    при тонкой настройке на языках с высоким уровнем ресурсов результаты, как правило, на удивление хороши, в некоторых случаях также, если язык тестирования на стороне исходного кода сильно отличается от языка тонкой настройки. Однако использование похожих языков обычно дает лучшие результаты. Примечателен случай с гуджарати, индийским языком с очень ограниченными ресурсами, который значительно выигрывает от тонкой настройки на другие индийские языки, в то время как его собственные данные приводят к случайным переводам (13,8 BLEU при использовании хинди-английского языка против 0,3 для гуджарати-английского). .
  • Эти два подхода также можно комбинировать: начать с языкового перевода и применить итеративный обратный перевод. Улучшения действительно стоят дополнительных усилий.

Предлагаю читателю углубиться в статью, чтобы изучить все результаты, их много и они очень подробны. Таким образом, вероятно, найдется что-то для вашего варианта использования. Стоит отметить, что в экспериментах по обучению без учителя английский всегда является одним из двух языков и всегда является языком целевой аудитории в экспериментах по переносу языка. Кроме того, оба языка тонкой настройки наблюдались во время предварительного обучения, хотя и с одноязычными данными.

Заключительные замечания

mBART открывает новые возможности в области машинного перевода и других задач НЛП, которые основывают один текст на другом, см., например, [11] [12] [13].

Что мне кажется более интересным, так это то, что модель изучает некоторую структуру языков во время предварительного обучения, и эта структура, похоже, выходит за рамки лингвистических границ, позволяя внутреннюю передачу знаний между языками. В частности, видение того, что передача языка может значительно превзойти точную настройку целевой языковой пары, действительно может изменить правила игры для некоторых приложений.

Теперь я предлагаю вам прочитать статью критически, изучив результаты, и если вы хотите попробовать mBART, вы можете найти его в HuggingFace Transformers или fairseq.

Вы думаете, что двуязычная точная настройка слишком ограничивает после многоязычной предварительной подготовки? В следующей статье этой серии мы рассмотрим mBART50 (50 языков предварительного обучения), который предлагает метод улучшения результатов с помощью многоязычной тонкой настройки.



использованная литература

[1] Клинчант, Стефан, Квеон Ву Юнг и Василина Никулина. «Об использовании BERT для нейронного машинного перевода». Труды 3-го семинара по генерации и трансляции нейронов. 2019 г.

[2] Лампле, Гийом и Алексис Конно. «Предварительное обучение межъязыковой языковой модели». Препринт arXiv arXiv: 1901.07291 (2019).

[3] Едунов, Сергей, Алексей Баевский и Майкл Аули. «Предварительно подготовленные представления языковых моделей для языковой генерации». Материалы конференции 2019 года Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка, том 1 (Длинные и краткие статьи). 2019 г.

[4] Го, Чжию и Минь Ле Нгуен. «Нейронный машинный перевод на уровне документа с использованием BERT в качестве кодировщика контекста». Труды 1-й конференции Азиатско-Тихоокеанского отделения Ассоциации компьютерной лингвистики и 10-й совместной конференции по обработке естественного языка: Студенческий исследовательский семинар. 2020.

[5] Лю, Иньхань и др. «Предварительное обучение многоязычному шумоподавлению для нейронного машинного перевода». Труды Ассоциации компьютерной лингвистики 8 (2020): 726–742.

[6] Васвани, Ашиш и др. «Внимание - это все, что вам нужно». Достижения в области нейронных систем обработки информации. 2017 г.

[7] Сеннрих, Рико, Барри Хэддоу и Александра Берч. «Нейро-машинный перевод редких слов с подсловами». Материалы 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи). 2016 г.

[8] Kasai, Jungo, et al. Deep Encoder, Shallow Decoder: переоценка неавторегрессионного машинного перевода

[9] Верлен, Лесли Микуличич и др. «Нейронный машинный перевод на уровне документа с иерархической сетью внимания». Материалы конференции 2018 г. по эмпирическим методам обработки естественного языка. 2018.

[10] Junczys-Dowmunt, Marcin. «Переводчик Microsoft на WMT 2019: на пути к крупномасштабному нейронному машинному переводу на уровне документа».

[11] Мартин, Луи и др. «Многоязычное упрощение предложений без учителя». Препринт arXiv arXiv: 2005.00352 (2020).

[12] Кацумата, Сатору и Мамору Комачи. «Более строгие основы для исправления грамматических ошибок с использованием предварительно обученной модели кодировщика-декодера». Труды 1-й конференции Азиатско-Тихоокеанского отделения Ассоциации компьютерной лингвистики и 10-й совместной конференции по обработке естественного языка. 2020.

[13] Ли, Сиань и др. «Многоязычный перевод речи с эффективной настройкой предварительно обученных моделей». Препринт arXiv arXiv: 2010.12829 (2020).

Среднее членство

Вам нравится мой текст и вы рассматриваете возможность подписки на Среднее членство, чтобы иметь неограниченный доступ к статьям?

Если вы подпишетесь по этой ссылке, вы поддержите меня своей подпиской без каких-либо дополнительных затрат для вас https://medium.com/@mattiadigangi/membership