Введение

Вы должны хорошо разбираться в том, что означает перевод. Проще говоря, это процесс преобразования текста с одного языка на другой с сохранением точного значения.

Например, перевод предложения на хинди «क्या आपने खाना खा लिया?» на английский было бы «ты поел?»

Но NeuralSpace также предлагает транслитерацию. Что это тогда? Транслитерация — это преобразование текста из одного алфавита в другой без изменения произношения. Символы исходного алфавита заменяются аналогичными по звучанию символами целевого алфавита.

Например, если взять то же предложение на хинди «क्या आपने खाना खा लिया?», его транслитерация будет «Kya aapne khana kha liya?». Это предложение, состоящее из английских букв, очевидно, не имеет смысла для носителя английского языка, но если его прочитать вслух, то человек, говорящий на хинди, прекрасно его поймет. Почему? Потому что произношение и «звучание» точно такие же, как если бы они были написаны алфавитом хинди.

Зачем вообще нужна транслитерация?

Необходимость создания контента на местных языках актуальна как никогда. В то время как проникновение Интернета и технологий растет из года в год, клавиатуры QWERTY или англо-латиница используются по умолчанию во многих регионах, что усложняет создание контента на местном языке. Для языков, в которых не используется английский/латиница, например арабский, хинди, пенджаби, сингальский, набор текста может быть затруднен, поскольку клавиатура часто по умолчанию настроена на латинские символы. С помощью транслитерации вы можете создавать контент на таких языках, используя английские/латинские символы.

Потребность в моделях транслитерации на базе ИИ

Когда слово транслитерируется из одного алфавита в другой, результат может меняться в зависимости от контекста, в котором это слово используется. Например, предложение на хинглише «Kal vo park jaa rahe the» следует транслитерировать на хинди как «कल वो पार्क जा रहे थे». Принимая во внимание, что предложение «мешок красный» следует транслитерировать как «द बैग इस रेड». Вы можете заметить, что транслитерация слова «the» иногда «थे», а иногда «द» в зависимости от контекста, в котором оно используется.

Обычно модели транслитерации строятся на основе правил. У них есть сопоставление каждого символа исходного языка с символом целевого языка. Это делает их неспособными транслитерировать в соответствии с контекстом, в котором используется слово.

С другой стороны, модели транслитерации на основе ИИ, доступные в NeuralSpace, имеют возможность транслитерировать, захватывая правильный контекст, в котором используется слово. Их также можно обучать в соответствии с индивидуальными требованиями путем тонкой настройки существующей модели транслитерации.

Варианты использования транслитерации

Примеры использования чат-бота

  • Интеграция с Google Maps, Spotify и другими API

Если вы пытались интегрировать Google Maps или API Spotify со своими чат-ботами, например, на тамильском, арабском, китайском или греческом языке, вы знаете, что они редко дают приемлемые результаты. С помощью транслитерации вы можете извлекать объекты, такие как имена, адреса, песни и т. д., на своем родном языке и преобразовывать их в английский/латинский алфавит, чтобы в полной мере использовать API-интерфейсы Google Maps, Spotify и других международных организаций.

  • Создание данных NLU для чат-ботов

Обычной практикой является создание набора данных на английском языке и его перевод на другой язык с помощью Google Translate или аналогичных API. Хотя это может хорошо работать для простых чат-ботов с часто задаваемыми вопросами, для контекстных чат-ботов требуются хорошо структурированные / значимые данные на местных языках. Инструменты набора текста на основе транслитерации могут помочь ускорить процесс создания набора данных для чат-ботов на языках, в которых не используется английский/латиница.

Варианты использования специальных возможностей

  • Недорогой доступ к контенту на нескольких языках

Интернационализация/перевод могут быть чрезвычайно дорогими, если ваши базы данных на английском и динамичные, постоянно расширяющиеся за счет контента, такого как песни, альбомы или адреса. Транслитерация может быть удобным инструментом для преобразования такого контента на лету в другие языки, которые не используют английский/латинский алфавит. Его можно проиндексировать с помощью популярных платформ, таких как Elasticsearch или других подобных инструментов, и мгновенно сделать доступным на нескольких языках. Это потенциально может сэкономить тысячи долларов на ручном переводе.

  • Создание контента

Такая простая вещь, как набор текста, может оказаться чрезвычайно сложной задачей, когда мы говорим о языках, на которых говорят на Ближнем Востоке, в Африке, Индии и Юго-Восточной Азии. Поскольку правительства и финансовые учреждения требуют включения, а создатели контента больше привыкли к клавиатуре с латинскими буквами, такой инструмент, как транслитерация, может быть очень удобным, чтобы упростить создание контента для местных языков.

Зарегистрируйтесь на платформе NeuralSpace и попробуйте транслитерацию в пользовательском интерфейсе!

Присоединяйтесь к Сообществу NeuralSpace Slack, чтобы общаться с нами. Кроме того, получайте обновления и обсуждайте темы НЛП для языков с низким уровнем ресурсов с другими разработчиками и исследователями.

Ознакомьтесь с нашей Документацией, чтобы узнать больше о платформе NeuralSpace и ее различных услугах.

Счастливого НЛП и ура!