Оценка рекомендателей - невозможно рекомендовать в x случаях

Я более подробно изучаю некоторые примеры кода в Mahout in Action. Я создал небольшой тест, который вычисляет среднеквадратичное значение различных алгоритмов, примененных к моим данным.

Конечно, несколько параметров влияют на RMS, но я не понимаю сообщение «невозможно рекомендовать в... случаях», которое генерируется при выполнении оценки.

Глядя на StatsCallable.java, это генерируется, когда оценщик встречает ответ NaN; Возможно, недостаточно данных в тренировочном наборе или настройках пользователя, чтобы дать рекомендацию.

Похоже, что на оценку RMS не влияет очень большой набор случаев «невозможно рекомендовать». Верно ли это предположение? Должен ли я оценивать свой алгоритм не только по среднеквадратичному значению, но и по соотношению случаев «не могу рекомендовать» по сравнению с моим общим тренировочным набором?

Буду признателен за любые отзывы.

mahout

Mike Smith 27.04.2012 источник

Ответы (1)

arrow_upward
4
arrow_downward

Да, по сути, это означает, что вообще не было данных, на которых можно было бы основывать оценку. Как правило, это признак разреженности данных. Это должно быть редко и происходить только для пользователей с очень маленькими данными или отключенными от других.

Я лично думаю, что это не такая уж большая проблема, если только это не действительно значительный процент (20% +?). Я бы больше беспокоился, если бы вы вообще не могли генерировать записи для многих пользователей.

Sean Owen 27.04.2012

comment

Шон - я хотел ответить и сказать спасибо за ответ. В итоге я провел серию тестов и обнаружил, что для моего набора данных Pearson показал худшие результаты, а логарифмическое правдоподобие было лучшей рекомендацией для пользователей. Как правило, 10 % моих данных попадали в категорию «не могу рекомендовать», но для Pearson это было больше похоже на 20 %. В любом случае, чтобы сравнить яблоки с яблоками, я в конечном итоге включил данные о невозможности рекомендовать в свою оценку RMS, чтобы справедливо сравнить всех рекомендателей. - Mike Smith; 04.05.2012

comment

Корреляция Пирсона не определена в крайних случаях, например, когда два человека пересекаются только в одном элементе. На разреженных данных это не редкость. Логарифмическая вероятность, по крайней мере, определена в этих случаях. (Это лучше по умолчанию.) Результат меня не удивляет. - Sean Owen; 04.05.2012

Оценка рекомендателей - невозможно рекомендовать в x случаях

Ответы (1)

Вопросы по теме