Тонкость выбора слов в нашем меняющемся мире

Некоторые из нас могут вспомнить время, не так давно, когда мы стояли на перекрестке чужого города, листая карманный разговорник в поисках волшебных слов, которые привели бы нас к вокзалу.

В настоящее время мы вызываем Google.

И наша зависимость от этого друга-приложения выходит далеко за рамки простых указаний и любезностей. Мы хотим общаться с миром. Для этого нам требуется переводчик плакатов художественных музеев, новостных статей, деловых документов, литературных произведений, статей о технологиях, речей, социальных сетей и живых разговоров.

Конечно, этот аппетит идет еще дальше.

В наши дни, когда мы барахтаемся во множестве нарративов о пандемии, политике и войне, становится до боли ясно, как мы должны тщательно подбирать слова и переводить не только жизненно важную информацию, но и грубые и нюансированные тона нашей коллективной борьбы.

Итак, давайте на мгновение отключим новости, замедлим дыхание и обратимся вместе с нашим другом Google к вдохновляющим словам покойного Нельсона Манделы:

"Наше человеческое сострадание связывает нас друг с другом не из жалости или снисходительности, а как людей, которые научились превращать наши общие страдания в надежду на будущее".

Сейчас самое время распространить это послание по всему миру на нескольких языках. Пришло время снова вызвать Google. Но многие из нас могут остановиться, испытав диапазон результатов Google Translate — от неуклюжих или неправильных до почти лирических. Действительно ли Google справится с этой задачей? Чтобы узнать, давайте проверим это. Сначала нам понадобится краткая история пути Google к машинному переводу, а затем мы посмотрим, как он справляется с красноречивыми словами Нельсона Манделы.

Путь Google с машинным переводом

На заре своего существования машинный перевод, задача автоматического преобразования текста с одного языка на другой, разрабатывался с помощью модели, основанной на правилах, требующей больших словарей и сложного понимания грамматик языковых пар.

Когда Google впервые ослепил мир своей бесплатной службой перевода, его платформа была основана на статистическом машинном переводе (SMT). Эта модель зависела от большого языкового корпуса (корпуса) существующих переводов между определенными языковыми парами. Документация и стенограммы Организации Объединенных Наций были одним из популярных источников такого корпуса. Вместо прямого перевода отдельных слов большинство моделей SMT искали фразы в корпусе, а затем предсказывали лучший перевод на основе статистического анализа всей совокупности данных перевода.

В 2016 году Google перешел на другую модель — нейронный машинный перевод (NMT). Подобно SMT, NMT опирается на двуязычный корпус данных. Однако он отличается способом перевода. Вместо простого статистического предиктивного подхода к переводу фраз он использует нейронные сети и переводит полные предложения. Нейронные сети позволяют системе обучаться и лучше предсказывать более точные переводы. Поскольку предложение предоставляет больше контекста и иллюстрирует взаимосвязь между входящими в его состав словами и фразами, NMT позволяет избежать многих грамматических ошибок, к которым склонны системы SMT.

Сегодня это одна из причин, по которой Google может дать нам плавный и точный перевод предложения или абзаца, но неверный перевод одного слова. Проще говоря, чем больше слов, тем больше контекста и отношений между словами, которые NMT должен изучить и предсказать лучший перевод.

Тестирование уха Google

Имея все это в виду, давайте вернемся к знаменитой цитате Нельсона Манделы, чтобы бросить вызов беглости перевода Google. Мы будем использовать китайский язык в качестве целевого языка, так как это язык, особенно актуальный для наших нынешних глобальных проблем. Конечно, китайские иероглифы могут быть для многих из нас «греческими», поэтому я также предоставлю обратный перевод Google на английский язык и выделю места, где появляются ошибки или несоответствия.

Цитата Манделы:

Наше человеческое сострадание связывает нас друг с другом не из жалости или покровительственного, а как людей, которые научились превращать наши общие страдания в надежду на будущее.

Перевод Google:

我們人類的同情心將我們彼此聯繫在一起,不是出於憐憫或傲慢,而是作為人類學會瞭如何將我們共同的痛苦轉化為對未來的希望

Обратный перевод Google:

Наше человеческое сострадание связывает нас друг с другом не из жалости или высокомерия, а потому, что люди научились превращать нашу общую боль в надежду на будущее.

Честно говоря, это относительно сложное предложение, и Google достаточно хорошо обрабатывает синтаксис, чтобы уловить основное значение; тем не менее, он борется с нюансами в нескольких местах.

Во-первых, Google переводит «покровительственно» на 傲慢 (аоман), «высокомерие», что означает чрезмерную гордость за себя и частое презрение к другим, вместо более конкретного значения «покровительственно» — оскорбительно снисходительного отношения к другому.

Во-вторых, в обратном переводе на английский язык Google допускает грамматическую ошибку, пропуская относительное местоимение «кто» после «человеческие существа».

Наконец, перевод «общее страдание» на 共同的痛苦 (gongtong de tongku) достаточно близок по смыслу. Но обратный перевод на английский «общая боль» не передает тон и более широкое значение «общего страдания».

По большому счету эти несовершенства могут показаться поверхностными, но в контексте слов Манделы о взаимном страдании и сострадании они ослабляют красноречие и силу его послания.

Таким образом, впечатляющие результаты для MT. Но как окончательный перевод призыва вдохновенного лидера текст требует вмешательства человеческого уха.

Слова, которые мы разделяем

Мы проделали долгий путь от того чужого города, где потянулись к нашему потрепанному карманному разговорнику. Google добился впечатляющих успехов в общении по всему миру; однако, как показывает наш тест со словами Манделы о сострадании, мы по-прежнему не можем полагаться только на технологии для перевода важных слов, которыми мы делимся.

Google можно уподобить молотку и долоту, которые мы используем, чтобы вылепить основную форму нашего языка, но им все еще не хватает более тонких инструментов для вырезания деталей, необходимых для вырезания подробных линий и сглаживания тонких контуров нашего сообщения. Наш человеческий язык гораздо больше, чем просто сумма или ее части. Мы создаем наши слова не только нашим мозгом и языком, но и всем нашим телом и жизненным опытом.

Точно так же, как вы не можете построить человека из отдельных органов, нервных сетей и тканей, вы не можете создать идеальные переводы на человеческий язык из словарей, грамматических правил и наборов данных.

Во всяком случае, еще нет. На данный момент Google живет как вездесущий компаньон на наших устройствах, готовый прислушиваться.

Запоздалая мысль: машинный перевод продолжает быстро развиваться и совершенствоваться. Я пытался сделать то же самое с переводом Google около двух с лишним лет назад, когда Google перевел слово «покровительственно» на китайское слово «слава», что свидетельствует о серьезном непонимании контекста со стороны МТ!