Я начал играть с Моисеем и попытался сделать то, что, как мне кажется, будет довольно стандартной базовой системой. В основном я выполнял шаги, описанные на веб-сайте, но вместо использования news-commentary
Для обучения я использовал Europarl v7 с набором для разработки WMT 2006 и оригинальным общим тестом Europarl. Моя идея состояла в том, чтобы сделать нечто подобное Le Nagard & Koehn (2010), которые получили оценку BLEU 0,68 в своей базовой системе перевода с английского на французский.
Подводя итог, мой рабочий процесс был примерно таким:
tokenizer.perl
во всемlowercase.perl
(вместоtruecase
)clean-corpus-n.perl
- Обучите модель IRSTLM, используя только французские данные из Europarl v7
train-model.perl
в точности как описаноmert-moses.pl
с помощью WMT 2006 dev- Тестирование и измерение производительности, как описано
И итоговый балл BLEU равен 0,26... Это приводит меня к двум вопросам:
- Это типичная оценка BLEU для такой базовой системы? Я понимаю, что Europarl — это довольно небольшой корпус для обучения одноязычной языковой модели, даже несмотря на то, как они делают вещи на веб-сайте Moses.
- Есть ли какие-то типичные ловушки для тех, кто только начинает работать с SMT и/или с Моисеем I? Или такие исследователи, как Le Nagard & Koehn, строят свои базовые системы способом, отличным от того, что описано на веб-сайте Moses, например, используя какой-то более крупный нераскрытый корпус для обучения языковой модели?