Почему такая плохая производительность у Моисея, использующего Europarl?

Я начал играть с Моисеем и попытался сделать то, что, как мне кажется, будет довольно стандартной базовой системой. В основном я выполнял шаги, описанные на веб-сайте, но вместо использования news-commentary Для обучения я использовал Europarl v7 с набором для разработки WMT 2006 и оригинальным общим тестом Europarl. Моя идея состояла в том, чтобы сделать нечто подобное Le Nagard & Koehn (2010), которые получили оценку BLEU 0,68 в своей базовой системе перевода с английского на французский.

Подводя итог, мой рабочий процесс был примерно таким:

  1. tokenizer.perl во всем
  2. lowercase.perl (вместо truecase)
  3. clean-corpus-n.perl
  4. Обучите модель IRSTLM, используя только французские данные из Europarl v7
  5. train-model.perl в точности как описано
  6. mert-moses.pl с помощью WMT 2006 dev
  7. Тестирование и измерение производительности, как описано

И итоговый балл BLEU равен 0,26... Это приводит меня к двум вопросам:

  • Это типичная оценка BLEU для такой базовой системы? Я понимаю, что Europarl — это довольно небольшой корпус для обучения одноязычной языковой модели, даже несмотря на то, как они делают вещи на веб-сайте Moses.
  • Есть ли какие-то типичные ловушки для тех, кто только начинает работать с SMT и/или с Моисеем I? Или такие исследователи, как Le Nagard & Koehn, строят свои базовые системы способом, отличным от того, что описано на веб-сайте Moses, например, используя какой-то более крупный нераскрытый корпус для обучения языковой модели?

person scozy    schedule 06.05.2015    source источник


Ответы (1)


Просто для начала: .68, о котором вы говорите, не имеет ничего общего с BLEU.

Моя идея состояла в том, чтобы сделать что-то подобное Le Nagard & Koehn (2010), которые получили 0,68 балла BLEU в своей базовой системе перевода с английского на французский.

В статье, на которую вы ссылаетесь, говорится только о том, что 68% местоимений (с использованием разрешения со ссылкой) были переведены правильно. Нигде не упоминается, что была получена оценка 0,68 BLEU. На самом деле баллы не присваивались, вероятно, потому, что качественное улучшение, предлагаемое в статье, не может быть измерено со статистической значимостью (что случается часто, если вы улучшаете только небольшое количество слов). По этой причине в статье используется только ручная оценка местоимений:

Лучшей оценочной метрикой является количество правильно переведенных местоимений. Это требует ручной проверки результатов перевода.

Вот где в игру вступает калибр .68.

Теперь, чтобы ответить на ваши вопросы относительно .26, который вы получили:

Это типичная оценка BLEU для такой базовой системы? Я понимаю, что Europarl — это довольно небольшой корпус для обучения одноязычной языковой модели, хотя именно так они делают вещи на веб-сайте Moses.

Да это так. Вы можете найти производительность языковых пар WMT здесь http://matrix.statmt.org/

Есть ли какие-то типичные ловушки для тех, кто только начинает работать с SMT и/или с Моисеем I? Или такие исследователи, как Le Nagard & Koehn, строят свои базовые системы способом, отличным от того, что описано на веб-сайте Moses, например, используя какой-то более крупный нераскрытый корпус для обучения языковой модели?

Я предполагаю, что вы правильно обучили свою систему. Что касается вопроса о «нераскрытом корпусе»: члены академического сообщества обычно указывают для каждого эксперимента, какие наборы данных использовались для обучения, тестирования и настройки, по крайней мере, в рецензируемых публикациях. Единственным исключением является задача WMT (см., например, http://www.statmt.org/wmt14/translation-task.html), где можно использовать частные корпуса, если система участвует в неограниченном треке. Но даже тогда люди будут упоминать, что использовали дополнительные данные.

person jvdbogae    schedule 07.05.2015
comment
Черт возьми, вы совершенно правы w.r.t. Ле Нагар и Коэн. Я прочитал это слишком быстро и был сбит с толку тем фактом, что они упоминают BLEU, но никогда не приводят никаких цифр. - person scozy; 07.05.2015