Языковой перевод с использованием Meta AI NLLB (No Language Left Behind) и SMS

Проект Meta AI NLLB имеет модели с открытым исходным кодом, способные выполнять языковой перевод напрямую между 200 языками. А использование SMS — это путь к демократизированному доступу к языковому переводу.

Введение

Не только в африканском контексте, но и в других слаборазвитых регионах доступ к информации затруднен по двум причинам.

Одним из факторов является язык.

Информация на языках меньшинств обычно недоступна.

Это произошло из-за отсутствия вспомогательных технологий. Либо из-за того, что языковая технология не поддерживает человеческий язык меньшинства, либо из-за отсутствия коммерческого стимула и оправдания затрат на разработку технологии для языка меньшинства.

Еще одним фактором, который необходимо учитывать, является стоимость, часто эти инициативы по переводу и доступу к информации носят гуманитарный характер и не могут компенсировать стоимость программного обеспечения и хостинга.

К этому добавляются практические соображения с точки зрения усилий при переводе больших объемов данных, таких как Википедия. В идеале, очевидно, автоматически переводить информацию по запросу пользователей в меньших объемах. Таким образом, исключаются накладные расходы на перевод больших объемов данных на различные языки, а также на управление и обслуживание этих томов.

Второй фактор – средства доступа.

Доступные среды доступа также могут быть препятствием. Если пользовательский интерфейс ограничен смартфонами, приложениями и требует высокой пропускной способности, доступ будет серьезно затруднен. Отсюда аргумент в пользу такого интерфейса, как SMS.

В этой истории я хочу рассмотреть:

  1. Мета ИИ Ни один язык не забыт (NLLB)
  2. SMS как средство доступа для демократизации доступа к языковым технологиям.

Мета AI NLLB

Согласно Meta AI, No Language Left Behind (NLLB) — это уникальный прорывной проект в области искусственного интеллекта…

В проекте есть модели с открытым исходным кодом, способные обеспечить качественные и оцененные переводы между 200 языками.

Эти переводы можно выполнять напрямую между любым из 200 языков, включая такие языки, как африкаанс, зулу, сото, шона и т. д.

NLLB предоставляет пользователям возможность доступа к веб-контенту на их родном языке. Это позволяет людям получать доступ к информации на их родном языке и общаться с кем угодно и где угодно.

Выше вы можете увидеть демонстрацию NLLB Translator с использованием моделей Facebook’s NLLB. Этот API к NLLB разработан компанией Нарратива. Предложение на африкаанс сначала переводится на английский, а затем то же самое предложение на африкаанс переводится на зулусский язык.

Преимущество модели NLLB в том, что ее можно использовать бесплатно, еще одно преимущество в том, что перевод может выполняться между любыми двумя заданными языками. Следовательно, нет необходимости в предварительном переводе информации или в промежуточном шаге, требующем единого промежуточного языка.

Список языков, включенных в NLLB, доступен здесь, этот список также содержит список языковых кодов.



Вот три способа доступа к NLLB:

1️⃣ Первым из них является автономный блокнот Colab, один из примеров такого блокнота можно найти здесь.

После того, как все подпрограммы Colab выполнены, можно запустить скрипт translate.sh с заданными исходным и целевым языками; вместе с текстом для перевода. Как видно ниже…

Вот ввод и скрипт выполнен…

Ввод:

! bash translate.sh /content/checkpoint.pt eng_Latn afr_Latn <<< 'The Africa physical geography, environment and resources, and human geography can be considered separately. '

А ниже вывод…

Вывод:

H-0 -0.7240010499954224 ▁Die ▁fisi ese ▁geograf ie ▁van ▁Afrika , ▁om gewing ▁en ▁hulp br onne ▁en ▁menslike ▁geograf ie ▁kan ▁afs onder lik ▁oor weeg ▁word . 
D-0 -0.7240010499954224 ▁Die ▁fisi ese ▁geograf ie ▁van ▁Afrika , ▁om gewing ▁en ▁hulp br onne ▁en ▁menslike ▁geograf ie ▁kan ▁afs onder lik ▁oor weeg ▁word .

2️⃣Доступ к NLLB осуществляется через пространство Narrativa 🤗HuggingFace, доступ к которому можно получить здесь.

Простой способ доступа к NLLB без кода — это графический интерфейс, доступный в Narrativa 🤗HuggingFace Space. Можно задать основные параметры и нажать кнопку отправить.

3️⃣ Наконец, получите доступ к NLLB через API Narrativa.

Доступ к API Narrativa можно получить напрямую через клиент, такой как Postman, как показано ниже.

Входные данные определяются в простом документе JSON, а выходные данные содержат переведенные данные и продолжительность.

SMS (текстовый носитель)

Почему СМС? Глядя на отчет GSMA за сентябрь 2021 года, проникновение уникальных абонентов мобильной связи составляет всего 46%.

Вдобавок к этому препятствием, использование смартфонов составляет 48%, а пользователей мобильного интернета - только 28%.

А с доступом 4G отставание на 12%.

Таким образом, становится ясно, что любой ресурсоемкий пользовательский интерфейс, зависящий от приложений и требующий доступа к смартфону, не обеспечит требуемого доступа и желаемой демократизации.

Ниже представлен простой прототип, иллюстрирующий, как можно легко интегрировать SMS-шлюз Twilio с NLLB API.

Вот руководство о том, как опросить Twilio о входящих SMS-сообщениях.



В этом отрывке из записной книжки показано, как можно получить доступ к API NLLB Narrativa и отправить переведенное предложение на номер мобильного телефона с помощью SMS-сообщения.

Заключение

В недавнем прошлом большое внимание уделялось моделям больших языков с точки зрения генерации, встраивания и классификации.

Однако перевод в больших масштабах, в том числе на языки меньшинств, имеет первостепенное значение. NLLB не только обеспечит языковой перевод, но и откроет путь для множества языковых задач и функций, которые будут разработаны в ближайшем будущем.