Для оценки модели генерации последовательности я использую BLEU1: BLEU4. Я разделил набор тестов на два набора и подсчитал баллы по каждому набору отдельно, а также по всему набору тестов. Удивительно, но результаты, которые я получаю от всего набора тестов, не являются средневзвешенными результатами, которые я получаю от каждого набора. Например, рассмотрим баллы BLEU4, которые я получаю за набор и два его подмножества:
set1, 866 элементов: 0,0001529267908
set2, 1010 элементов: 0,1625387989
‹set1, set2›, 1876 элементов: 0.3063472152
Как мне объединить результаты по двум подмножествам, чтобы получить общий результат?
Примечание: я знаю, что все элементы в set1 короче 4 токенов, поэтому BLEU4 там почти равен нулю.