«Я привел запись того, что думал один человек, когда он занимался исследованиями и прижимал руки к ограничивающим стенам научного метода в свое время. Но мужчины видят иначе. В лучшем случае я могу сообщать только из своей глуши».

— — Лорен Эйсели

Прямая ссылка на публикацию выше содержит дополнительную графику.

2016 год был действительно удачным для технологии машинного перевода, поскольку машинный перевод вызвал гораздо больше шума, чем за последние 10 лет, а также некоторые прорывные достижения в базовой технологии. Это был также год, когда я покинул Asia Online и получил возможность участвовать в ярком и гораздо более захватывающем и быстро меняющемся мире машинного перевода за пределами Таиланда. Как вы можете видеть из этого блога, после отъезда мне было что сказать. Следующие утверждения в основном являются просто мнениями (с некоторой фактической основой), и я готов к тому, чтобы меня поправили и оспорили каждое заявление, которое я сделал здесь. Надеюсь, у некоторых из вас, прочитавших это, могут быть разные мнения, которыми вы, возможно, захотите поделиться в комментариях.

МТ доминирует в мировой переводческой деятельности

Для тех, кто сомневается в распространенности машинного перевода сегодня, (что бы вы ни думали о качестве вывода), следующий рисунок проясняет ситуацию. Чтобы представить это в контексте, Lionbridge сообщила о 2 миллиардах слов, переведенных за год, а SDL только что сообщила нам ранее в этом месяце, что они переводят 100 миллионов слов в месяц (TEP) и более 20 миллиардов слов в месяц с помощью MT. Поставщик машинного перевода вместе с крупными общедоступными машинами по всему миру, вероятно, легко сможет переводить более 500 млрд слов машинного перевода в день! Google даже предоставил нам некоторое представление о том, какие самые популярные языки, если вы внимательно посмотрите ниже. По моим приблизительным оценкам, это означает, что традиционная индустрия переводов выполняет около 0,016 % от общего количества слов, переводимых каждый день, или что компьютеры выполняют примерно 99,84 % всех языковых переводов, выполняемых сегодня.

Появление нейронного и адаптивного машинного перевода

2016 год также является годом, когда Нейронный МТ оказался в центре внимания. Те, кто следит за оценками WMT16 и люди в Эдинбургском университете, уже знали, что системы NMT были особенно многообещающими, но как только FaceBook объявил, что они переходят на системы Neural MT, внезапно стало жарко. Google, Microsoft и Baidu признали суперкрутость NMT, а следующее важное объявление было сделано от SYSTRAN о их системах Pure NMT. Месяц спустя за этим быстро последовало чрезмерное и несколько ложное заявление Google о том, что перевод с их новой системы NMT на машинный перевод будет не хуже человеческого качества. (Хотя теперь Майк Шустер, кажется, невиновен в этом, и похоже, что за это возмутительное заявление несет ответственность какой-то маркетолог.) Это заявление вызвало гипер-вау-прессу, и вскоре в эфире загудело с магией этого нового Google Neural MT. Microsoft также объявила, что они выполняют 80% своего МП с системами Neural MT. Кстати, в списке также указано, на какие языки приходится 80% переводческого трафика. KantanMT и tauyou также начали экспериментировать, и SDL тоже экспериментировала в течение некоторого времени, НО эксперименты не создают продукт. И теперь все основные веб-порталы сосредоточены на максимально быстром переходе на стандартные системы NMT.

В 2016 году также появились серийные системы AdaptiveMT. Эти системы, хотя и основаны на технологии SMT на основе фраз, быстро и динамично обучаются по мере работы переводчиков. Компания под названием Lilt первой вышла на рынок и в настоящее время является лидером рынка с Adaptive MT, но SDL находится недалеко от нее, и 2017 год может представить совсем другую картину, поскольку Lilt продолжает спотыкаться со своей маркетинговой стратегией. ModernMT, инициатива ЕС, также продемонстрировала прототипы своего адаптивного машинного перевода. Пока еще никому не удавалось создать реальный импульс с помощью переводчиков, но эта технология очень хорошо подходит для индивидуального переводчика.

В 2016 году Microsoft представила несколько предложений MT, связанных с преобразованием речи в речь, и, хотя они не получили такой известности, как NMT, эти речевые инициативы, на мой взгляд, имеют большое значение, поскольку мы все знаем из Звездного пути, что речь последний рубеж автоматизированного перевода.

Перспективы на 2017 год и далее

Нейронный прогноз MT

Учитывая улучшенное качество выходных данных и тот факт, что FaceBook, SYSTRAN, Google, Microsoft, Baidu, Naver и Yandex изучают и внедряют Neural MT, он будет продолжать совершенствоваться и получит более широкое распространение.Надеемся, что SYSTRAN предоставит доказательства. адаптации домена и специализации с помощью PNMT для корпоративных приложений. И мы увидим, как многие другие попытаются попасть в вагон NMT, но я не ожидаю, что все поставщики машинного перевода будут иметь ресурсы, доступные для получения готовых к рынку решений в место. Разработка поставляемых продуктов NMT требует инвестиций, которые на данный момент весьма значительны и потребуют большего, чем союз с академическим учреждением. Однако успех NMT даже на этом раннем этапе предполагает, что он, вероятно, заменит SMT. в конечном итоге по мере снижения затрат на обучение и развертывание или увеличения разницы в качестве.

Адаптивный прогноз МТ

В то время как SMT на основе фраз уже хорошо зарекомендовал себя, и у нас есть много успешных корпоративных приложений, этот последний вариант выглядит весьма многообещающе. Адаптивный машинный перевод продолжает набирать обороты в мире профессионального перевода, и это первая эволюция базовой технологии машинного перевода, получившая положительные отзывы как от опытных, так и от начинающих переводчиков. В то время как Lilt продолжает лидировать на рынке, SDL находится рядом с ним и может изменить рыночный ландшафт, если они будут хорошо работать. ModernMT также может стать игроком в 2017 году и предположительно создаст версию с открытым исходным кодом. Эта модель машинного перевода основана на лингвистической и корректирующей обратной связи, по одному предложению или слову за раз, и поэтому особенно хорошо подходит в качестве предпочтительной модели машинного перевода для профессиональной переводческой отрасли. Ее также можно развернуть в на уровне предприятия или на уровне отдельного фрилансера, и я думаю, что Adaptive MT — гораздо лучшая стратегия, чем подход Моисея сделай сам. И у Lilt, и у SDL исходные данные лучше, чем у 95 % (может быть, 99 %) существующих систем Moses, и вместе с активной корректирующей обратной связью они могут улучшаться достаточно быстро, чтобы быть полезными в производственной среде. переводческая работа. Помните, что система обратной связи улучшает то, что она уже знает, поэтому качество основополагающей системы машинного перевода также имеет большое значение. Я подозреваю, что в 2017 году эти системы превзойдут системы NMT, но было бы здорово, если бы кто-нибудь провел надлежащую оценку, чтобы лучше определить это. Я не удивлюсь, если эта технология также заменит текущую технологию ТМ и станет облачной Супер-ТМ, которая обучается и совершенствуется по мере того, как вы работаете.

Понимание качества машинного перевода

Измерение качества машинного перевода по-прежнему остается основной проблемой, и исследовательское сообщество не смогло найти лучшего показателя, чем BLEU. TAUS DQF является всеобъемлющим, но слишком дорогим и сложным для последовательного развертывания, поэтому он не так полезен. Как нейронный, так и адаптивный машинный перевод не могут быть точно измерены с помощью BLEU, но практики продолжают использовать его, несмотря на все его недостатки, из-за лонгитюдной истории данных. Мы видим, что небольшие различия в BLEU часто рассматриваются как большие улучшения, сделанные людьми с выходом NMT. Адаптивные механизмы машинного перевода, которые активно используются, могут иметь более высокий BLEU каждый час, и, вероятно, важнее то, насколько быстро улучшается механизм, а не оценка в любой момент времени. В отрасли есть люди, которые старательно собирают показатели производительности, а затем также ссылаются на BLEU и что-то вроде «Редактировать расстояние» для создания оценки усилий, которая со временем может стать очень значимым и точным измерением в контексте профессионального использования. GALA могла бы спонсировать более комплексный опрос, чтобы разработать гораздо лучшие показатели машинного перевода. Если несколько агентств сотрудничают и обмениваются данными об опыте MT и PEMT, мы можем достичь точки, когда цифры будут гораздо более значимыми и согласованными между агентствами.

Компенсация за постредактирование

Я заметил, что пост Я написал в 2012 году о компенсации PEMT остается одним из самых читаемых постов, которые я когда-либо писал. Компенсация PEMT по сей день остается проблемой, которая вызывает неудовлетворенность и провал проектов машинного перевода. Необходима какая-то стандартизация, чтобы связать усилия по редактированию и исправлению, а также измерять качество машинного перевода надежным и прозрачным способом. Практикам необходимо собирать данные о производительности, усилиях по редактированию и автоматических оценках, чтобы увидеть, как они согласуются с практикой оплаты. Опять же, GALA или другие отраслевые ассоциации могут совместно собирать эти данные и формировать более стандартизированные рекомендации. По мере сбора и распространения таких данных об усилиях, оплате и качестве будут появляться и лучше пониматься более стандартизированные подходы. Необходимо уменьшить черную магию и сделать все факторы компенсации более четкими. Компенсация PEMT может стать такой же очевидной, как и компенсация, связанная с нечетким соответствием, со временем, и потребуются добросовестные переговоры в промежуточный период, пока это прорабатывается. В то время как машинный перевод будет распространяться и даже улучшаться, компетентные переводчики станут более дефицитным товаром, и я не разделяю теорию сингулярности идеального машинного перевода 2029 года. Было бы разумно, чтобы агентства установили долгосрочные доверительные отношения с переводчиками и редакторами, так как именно так будет создаваться настоящее качество сейчас и в будущем.

Желаем всем счастья, здоровья и процветания в Новом году