Ошибка в выборке Роуза при балансировке данных с категориальными переменными

Я пытаюсь сбалансировать свои данные, в которых доля большинства классов составляет 99%, а у редкого класса - 1%. Моя переменная ответа является двоичной, а мои независимые переменные являются двоичными, целочисленными и категориальными переменными.

Я использую функцию ROSE пакета ROSE, но получаю следующую ошибку: «Ошибка в rose.sample(n, N, p, ind.majo, majoY, ind.mino, minoY, y, classy, ​​: Текущая реализация ROSE обрабатывает только непрерывные и категориальные переменные».

Я понимаю, что ошибка связана с моими независимыми переменными, но я не мог понять, в чем основная причина этой ошибки и как ее решить. Есть ли у вас опыт с такой ошибкой?


person Cigdem    schedule 27.04.2019    source источник
comment
Приведите воспроизводимый пример вашей проблемы.   -  person DSGym    schedule 27.04.2019


Ответы (1)


У меня было похожее сообщение. Оказывается, одна из моих независимых переменных была объектом difftime, хотя ее следовало сделать числовой.

В документации к пакету ROSE указано, что он принимает непрерывные переменные в целочисленном или числовом формате, а также категориальные переменные в формате фактора для своих функций precision.meas и roc.curve. Это, вероятно, то же самое для функции РОЗА. Было бы полезно знать классы ваших переменных, но рассмотрите факторизацию этих ваших двоичных столбцов или убедитесь, что ваши другие переменные соответствуют этим типам данных.

person katem    schedule 10.07.2019