Первая модель многоязычного машинного перевода

Вы когда-нибудь думали об использовании Facebook на своем родном языке или задавались вопросом, как это делается? Недавно Facebook разработал модель обработки естественного языка, которая переводит 200 языков без предварительного перевода данных на английский язык. Эта модель называется моделью перевода M2M (многие ко многим). Большая часть предыдущей работы по переводу была основана на англо-ориентированных наборах данных и моделях, которые переводили с английского языка и на английский язык для перевода с одного языка на другой, но не между неанглийскими языками. Этот англо-ориентированный уклон в данных и результирующих моделях не отражает того, как люди используют перевод, и эмпирически приводит к более низкой эффективности для неанглоязычных направлений перевода. Напротив, недавно введенная модель M2M переводит язык на любой язык, не полагаясь на английский язык в качестве посредника.

Как работает модель M2M:

До модели M2M процесс перевода с одного языка на другой зависел от английского языка. Это был мост между любыми двумя языками. Однако недавно Facebook разработал модель, которая переводит данные с одного языка на другой без использования английского языка в качестве посредника. Сравним это с процессом изучения английского языка человеком, знающим только урду и любой другой родной язык. В большинстве случаев этот человек сначала переводит с английского на урду, а затем на местный язык. То же самое было ранее с переводом в Facebook и всех других социальных сетях, которые должны были быть переведены сначала на английский язык, а затем на другой язык. Это повлияет на точность и эффективность модели перевода. Чтобы решить эту проблему, Facebook представил модель перевода M2M-100. Первая многоязычная модель машинного перевода. Это может переводить между любой парой 100 языков без какой-либо зависимости от английского языка.

Модель не зависит от английского как связующего звена между двумя языками. Например, для перевода между китайским и урду системы обычно обучаются с китайского на английский, а затем с английского на урду; однако модель M2M-100 теперь может напрямую переводиться с китайского на урду. Таким образом, более эффективно сохраняется первоначальный смысл. Эта модель изучает определенный язык и не требует какого-либо промежуточного носителя (языка) для перевода его с одного языка на другой.

Какие технологии использует M2M-100

Любой язык, который необходимо перевести, сначала разбивается на маленькие слова, т. е. токены. Для перевода система получает и отдает токены в качестве ввода и вывода соответственно. Тем не менее, перевод на основе слов как единиц может быть проблематичным в процессе многоязычного перевода, поскольку это приводит либо к недостаточному охвату словарного запаса, либо к чрезмерно большому объему словарного запаса. Другая проблема заключается в том, что во многих языках есть слова, которые нельзя разбить на отдельные лексемы. Таким образом, многоязычная модель перевода использует процесс токенизации подслов для создания последовательности токенов в качестве входных и выходных данных для машины. Кроме того, эта многоязычная модель перевода основана на архитектуре преобразования последовательности в последовательность, которая состоит из двух модулей: кодировщик берет последовательность токенов исходного языка и преобразует ее в последовательность токенов подслов той же длины, что и встроены в декодер. Декодер, встроенный в последовательность токенов, декодирует ее, преобразовывая в последовательность токенов на целевом языке, и, таким образом, создает целевой язык. Однако и в кодировщике, и в декодере есть специальный маркер, который указывает исходный язык для кодировщика и целевой язык для кодировщика.

Подведение итогов

Лучшее в этой модели то, что она с открытым исходным кодом, и исследователи могут извлечь из нее пользу, поскольку модель превосходит англо-ориентированные многоязычные модели, обученные на данных, где либо исходным, либо целевым языком является английский. Система улучшает в среднем более 10 BLEU по сравнению с базовым уровнем, ориентированным на английский язык, при прямом переводе между направлениями, не относящимися к английскому языку. Таким образом, M2M-100 является конкурентоспособной моделью, разработанной для двуязычных моделей, поскольку она повышает эффективность перевода между неанглийскими языками без опоры на английский язык.