Средний балл BLEU по двум подмножествам данных не совпадает с общим баллом

Для оценки модели генерации последовательности я использую BLEU1: BLEU4. Я разделил набор тестов на два набора и подсчитал баллы по каждому набору отдельно, а также по всему набору тестов. Удивительно, но результаты, которые я получаю от всего набора тестов, не являются средневзвешенными результатами, которые я получаю от каждого набора. Например, рассмотрим баллы BLEU4, которые я получаю за набор и два его подмножества:

set1, 866 элементов: 0,0001529267908

set2, 1010 элементов: 0,1625387989

‹set1, set2›, 1876 элементов: 0.3063472152

Как мне объединить результаты по двум подмножествам, чтобы получить общий результат?

Примечание: я знаю, что все элементы в set1 короче 4 токенов, поэтому BLEU4 там почти равен нулю.


person user1323163    schedule 22.08.2020    source источник


Ответы (1)


Оценка BLEU по определению нелинейна. Как вы можете видеть в исходной статье Папинени и др.:

введите описание изображения здесь

Это продукт двух терминов: штраф за краткость (BP) и гармоническое среднее n -граммовой точности. И штраф за краткость, и гармоническое среднее не являются линейными операциями по отношению к усреднению.

Что касается того, что вам следует сообщать: поскольку два набора тестов выглядят принципиально по-разному, лучший вариант - сообщить два разных числа.

Я не знаю, какова ваша задача, но, учитывая, что желаемые результаты очень короткие, BLEU может быть не лучшим выбором для оценки. Вы можете подумать, что что-то основанное на редактировании (например, TER) или даже простая точность могут помочь.

person Jindřich    schedule 02.09.2020