Оценка рекомендателей - невозможно рекомендовать в x случаях

Я более подробно изучаю некоторые примеры кода в Mahout in Action. Я создал небольшой тест, который вычисляет среднеквадратичное значение различных алгоритмов, примененных к моим данным.

Конечно, несколько параметров влияют на RMS, но я не понимаю сообщение «невозможно рекомендовать в... случаях», которое генерируется при выполнении оценки.

Глядя на StatsCallable.java, это генерируется, когда оценщик встречает ответ NaN; Возможно, недостаточно данных в тренировочном наборе или настройках пользователя, чтобы дать рекомендацию.

Похоже, что на оценку RMS не влияет очень большой набор случаев «невозможно рекомендовать». Верно ли это предположение? Должен ли я оценивать свой алгоритм не только по среднеквадратичному значению, но и по соотношению случаев «не могу рекомендовать» по сравнению с моим общим тренировочным набором?

Буду признателен за любые отзывы.


person Mike Smith    schedule 27.04.2012    source источник


Ответы (1)


Да, по сути, это означает, что вообще не было данных, на которых можно было бы основывать оценку. Как правило, это признак разреженности данных. Это должно быть редко и происходить только для пользователей с очень маленькими данными или отключенными от других.

Я лично думаю, что это не такая уж большая проблема, если только это не действительно значительный процент (20% +?). Я бы больше беспокоился, если бы вы вообще не могли генерировать записи для многих пользователей.

person Sean Owen    schedule 27.04.2012
comment
Шон - я хотел ответить и сказать спасибо за ответ. В итоге я провел серию тестов и обнаружил, что для моего набора данных Pearson показал худшие результаты, а логарифмическое правдоподобие было лучшей рекомендацией для пользователей. Как правило, 10 % моих данных попадали в категорию «не могу рекомендовать», но для Pearson это было больше похоже на 20 %. В любом случае, чтобы сравнить яблоки с яблоками, я в конечном итоге включил данные о невозможности рекомендовать в свою оценку RMS, чтобы справедливо сравнить всех рекомендателей. - person Mike Smith; 04.05.2012
comment
Корреляция Пирсона не определена в крайних случаях, например, когда два человека пересекаются только в одном элементе. На разреженных данных это не редкость. Логарифмическая вероятность, по крайней мере, определена в этих случаях. (Это лучше по умолчанию.) Результат меня не удивляет. - person Sean Owen; 04.05.2012