предупреждающее сообщение порядковая логистическая регрессия в R

Это моя головка данных (оба):

 season  gender age   prog     grade 
    fall    woman  old  FRIST       B
    fall    woman  old  FRIST       A 
    spring  woman  old  FRIST       E 
    spring    man  old  NMATK       C 
    spring  woman  old  NFYSK       A 
    fall    woman  old  FRIST       E 

Я хочу сделать логистическую регрессию, где оценки являются переменной ответа. Я хочу сделать четыре из которых являются независимыми.

Здесь:

E/A+B+C+D=alpha_1+beta^x_1+beta^y_1+...

D+E/A+B+C=alpha_2+beta^x_2+beta^y_2+...

C+D+E/A+B=alpha_3+beta^x_3+beta^y_3+...

B+C+D+E/A=alpha_4+beta^x_4+beta^y_4+...

Что я наделал:

    library(MASS)
y <- factor(both$betyg)
mod.fit <- polr(y ~ prog + gender + age + season, data=both, Hess=TRUE)
summary(mod.fit) 

Затем я получаю это сообщение:

Предупреждающее сообщение: в polr(y ~ prog + пол + возраст + сезон, данные = оба, Hess = TRUE): дизайн выглядит неполноценным, поэтому некоторые коэффициенты отбрасываются.

Я знаю, что это не ошибка, а предупреждение. Я не знаю, как это интерпретировать или что делать по-другому, чтобы избежать этого сообщения?


person PerkinsN    schedule 29.03.2015    source источник
comment
Эта ссылка должна быть полезной.   -  person Alex A.    schedule 30.03.2015
comment
Вы говорите, что хотите выполнить логистическую регрессию, где grade — это порядковый ответ, но в коде вашей модели вы используете некоторую переменную с именем betyg, на которую нет ссылки. Если я не ошибаюсь, это шведский для класса. Для согласованности я рекомендую вам выбрать одно имя.   -  person Alex A.    schedule 30.03.2015


Ответы (1)


Поскольку ваш результат упорядочен, вы, вероятно, добьетесь большего успеха с порядковым номером, но, возможно, захотите проверить предположение о пропорциональных шансах. Модель, которую вы описываете, в значительной степени соответствует тому, что делает polr, хотя, как вы говорите, они не независимы. В Калифорнийском университете в Лос-Анджелесе есть хороший учебник по этому вопросу.

Что касается определения того, какая модель лучше, при работе с принципиально разными типами моделей, подобных этим, я бы рекомендовал перекрестную проверку. Точность прогноза не лжет, и любые метрики псевдо-R^2 будут по-разному интерпретироваться в разных моделях.

Кроме того, поскольку этот вопрос касается статистики больше, чем кодирования/реализации R, я бы рекомендовал CrossValidated (сайт статистики StackExchange).

person Max Ghenis    schedule 29.03.2015
comment
это было действительно очень полезно. Получить предупреждающее сообщение, когда я использую свой R-код. Как я, к сожалению, не знаю, как интерпретировать. - person PerkinsN; 30.03.2015