Языковой перевод с использованием Meta AI NLLB (No Language Left Behind) и SMS
Проект Meta AI NLLB имеет модели с открытым исходным кодом, способные выполнять языковой перевод напрямую между 200 языками. А использование SMS — это путь к демократизированному доступу к языковому переводу.
Введение
Не только в африканском контексте, но и в других слаборазвитых регионах доступ к информации затруднен по двум причинам.
Одним из факторов является язык.
Информация на языках меньшинств обычно недоступна.
Это произошло из-за отсутствия вспомогательных технологий. Либо из-за того, что языковая технология не поддерживает человеческий язык меньшинства, либо из-за отсутствия коммерческого стимула и оправдания затрат на разработку технологии для языка меньшинства.
Еще одним фактором, который необходимо учитывать, является стоимость, часто эти инициативы по переводу и доступу к информации носят гуманитарный характер и не могут компенсировать стоимость программного обеспечения и хостинга.
К этому добавляются практические соображения с точки зрения усилий при переводе больших объемов данных, таких как Википедия. В идеале, очевидно, автоматически переводить информацию по запросу пользователей в меньших объемах. Таким образом, исключаются накладные расходы на перевод больших объемов данных на различные языки, а также на управление и обслуживание этих томов.
Второй фактор – средства доступа.
Доступные среды доступа также могут быть препятствием. Если пользовательский интерфейс ограничен смартфонами, приложениями и требует высокой пропускной способности, доступ будет серьезно затруднен. Отсюда аргумент в пользу такого интерфейса, как SMS.
В этой истории я хочу рассмотреть:
- Мета ИИ Ни один язык не забыт (NLLB)
- SMS как средство доступа для демократизации доступа к языковым технологиям.
Мета AI NLLB
Согласно Meta AI, No Language Left Behind (NLLB) — это уникальный прорывной проект в области искусственного интеллекта…
В проекте есть модели с открытым исходным кодом, способные обеспечить качественные и оцененные переводы между 200 языками.
Эти переводы можно выполнять напрямую между любым из 200 языков, включая такие языки, как африкаанс, зулу, сото, шона и т. д.
NLLB предоставляет пользователям возможность доступа к веб-контенту на их родном языке. Это позволяет людям получать доступ к информации на их родном языке и общаться с кем угодно и где угодно.
Выше вы можете увидеть демонстрацию NLLB Translator с использованием моделей Facebook’s NLLB. Этот API к NLLB разработан компанией Нарратива. Предложение на африкаанс сначала переводится на английский, а затем то же самое предложение на африкаанс переводится на зулусский язык.
Преимущество модели NLLB в том, что ее можно использовать бесплатно, еще одно преимущество в том, что перевод может выполняться между любыми двумя заданными языками. Следовательно, нет необходимости в предварительном переводе информации или в промежуточном шаге, требующем единого промежуточного языка.
Список языков, включенных в NLLB, доступен здесь, этот список также содержит список языковых кодов.
Вот три способа доступа к NLLB:
1️⃣ Первым из них является автономный блокнот Colab, один из примеров такого блокнота можно найти здесь.
После того, как все подпрограммы Colab выполнены, можно запустить скрипт translate.sh с заданными исходным и целевым языками; вместе с текстом для перевода. Как видно ниже…
Вот ввод и скрипт выполнен…
Ввод:
! bash translate.sh /content/checkpoint.pt eng_Latn afr_Latn <<< 'The Africa physical geography, environment and resources, and human geography can be considered separately. '
А ниже вывод…
Вывод:
H-0 -0.7240010499954224 ▁Die ▁fisi ese ▁geograf ie ▁van ▁Afrika , ▁om gewing ▁en ▁hulp br onne ▁en ▁menslike ▁geograf ie ▁kan ▁afs onder lik ▁oor weeg ▁word . D-0 -0.7240010499954224 ▁Die ▁fisi ese ▁geograf ie ▁van ▁Afrika , ▁om gewing ▁en ▁hulp br onne ▁en ▁menslike ▁geograf ie ▁kan ▁afs onder lik ▁oor weeg ▁word .
2️⃣Доступ к NLLB осуществляется через пространство Narrativa 🤗HuggingFace, доступ к которому можно получить здесь.
Простой способ доступа к NLLB без кода — это графический интерфейс, доступный в Narrativa 🤗HuggingFace Space. Можно задать основные параметры и нажать кнопку отправить.
3️⃣ Наконец, получите доступ к NLLB через API Narrativa.
Доступ к API Narrativa можно получить напрямую через клиент, такой как Postman, как показано ниже.
Входные данные определяются в простом документе JSON, а выходные данные содержат переведенные данные и продолжительность.
SMS (текстовый носитель)
Почему СМС? Глядя на отчет GSMA за сентябрь 2021 года, проникновение уникальных абонентов мобильной связи составляет всего 46%.
Вдобавок к этому препятствием, использование смартфонов составляет 48%, а пользователей мобильного интернета - только 28%.
А с доступом 4G отставание на 12%.
Таким образом, становится ясно, что любой ресурсоемкий пользовательский интерфейс, зависящий от приложений и требующий доступа к смартфону, не обеспечит требуемого доступа и желаемой демократизации.
Ниже представлен простой прототип, иллюстрирующий, как можно легко интегрировать SMS-шлюз Twilio с NLLB API.
Вот руководство о том, как опросить Twilio о входящих SMS-сообщениях.
В этом отрывке из записной книжки показано, как можно получить доступ к API NLLB Narrativa и отправить переведенное предложение на номер мобильного телефона с помощью SMS-сообщения.
Заключение
В недавнем прошлом большое внимание уделялось моделям больших языков с точки зрения генерации, встраивания и классификации.
Однако перевод в больших масштабах, в том числе на языки меньшинств, имеет первостепенное значение. NLLB не только обеспечит языковой перевод, но и откроет путь для множества языковых задач и функций, которые будут разработаны в ближайшем будущем.