Я надеюсь, что кто-то может ответить на это для меня, поскольку я застрял.
Какую методологию использует Rapidminer в своей корреляционной матрице? Для всех комбинаций данных было бы неплохо, но что наиболее важно для номинальных/категориальных наборов данных?
Я использую Rapidminer для построения корреляционной матрицы и тщательно обозначил все атрибуты как числа, биномиальные, полиномиальные и т. д. Я обнаружил, что моя матрица показывает отрицательную корреляцию для некоторых номинальных/номинальных комбинаций атрибутов, что не t сделать, так как на основе методов, которые, как я обычно думаю, будут выбраны (Phi, Cramer's V, коэффициент непредвиденных обстоятельств) для расчета этого. Я думал, что корреляция должна быть положительной для этих тестов, и не имеет смысла иметь «отрицательную» корреляцию между такими категориями, как пол и город, поскольку это предполагало бы порядок в данных.
Используется ли другой тест, фиктивное кодирование или что-то в этом роде? И если используется фиктивное кодирование, насколько надежно полученное значение?
Заранее благодарю всех, кто может мне помочь. Ненавижу признаваться, когда теряюсь, но здесь мне нужна карта :)