Проблемы с P-значением в R

У меня есть вопрос относительно p-значений. Я сравнивал различные линейные модели, чтобы определить, лучше ли одна модель другой, со следующей функцией в R.

 anova(model1,model2)

К сожалению, иногда он не вычисляет F или p-значение. Вот пример сводки анова, которая не дает p-значения

 Analysis of Variance Table

 Model 1: Influence ~ SortedSums[, Combos2[1, A]] + SortedSums[, Combos2[2,A]]
 Model 2: Influence ~ SortedSums[, B]
    Res.Df   RSS Df Sum of Sq F Pr(>F)
 1    127 3090.9                      
 2    128 2655.2 -1    435.74 

Ради симметрии, вот также сводка анова, которая действительно дала p-значение.

 Analysis of Variance Table

 Model 1: Influence ~ SortedSums[, Combos2[1, A]] + SortedSums[, Combos2[2,A]]
 Model 2: Influence ~ SortedSums[, B]
    Res.Df    RSS Df Sum of Sq      F Pr(>F)
  1    127 3090.9                           
  2    128 3157.6 -1   -66.652 2.7386 0.1004

Вы знаете, почему это происходит?


person Lcat91    schedule 09.08.2013    source источник
comment
Спросите себя, считаете ли вы, что люди, у которых нет вашего кода, должны быть в состоянии ответить на этот вопрос. Если ответ отрицательный (как я думаю, так и должно быть в данный момент), пожалуйста, предоставьте достаточно информации, чтобы перейти к утвердительному ответу.   -  person IRTFM    schedule 10.08.2013
comment
Вы не дали нам многого для продолжения. Тем не менее, некоторые случайные мысли: (1) Сначала укажите более простую модель в вызове anova, (2) Подмножьте свои данные вне выражения модели; это просто сбивает с толку и беспорядочно, (3) Проверьте эту проблему (из ?anova): сравнение между двумя или более моделями будет действительным, только если они подходят к одному и тому же набору данных. Это может быть проблемой, если есть пропущенные значения и используется R по умолчанию na.action = na.omit.   -  person bdemarest    schedule 10.08.2013


Ответы (2)


Не все вопросы требуют примеров кода. Вы не заслуживаете насмешек за то, что вы новичок, и мне жаль, что люди это сделали. Вот ответ:

Разница между двумя моделями не существенна.

Вот что вы можете с этим сделать:

  • Убедитесь, что термины одного объекта модели являются надмножеством терминов другого. В противном случае тест анова по умолчанию недействителен для начала (вместо этого вы можете сравнить такие невложенные модели с помощью AIC, но это относится к отдельному вопросу). На самом деле мне очень любопытно увидеть вложенную пару моделей, которая может быть этой несущественной, но опять же, нет необходимости отвечать на этот вопрос.
  • Если вы проверили, а модели вложены друг в друга, а это анализ, который вы делаете вручную, напишите в своем отчете p=1.0 и на этом закончите.
  • Если модели вложены друг в друга, а вышеописанное похоже на читерство, вот как это сделать трудным путем. Что вы действительно спрашиваете anova, так это то, вносит ли та переменная, по которой они различаются, значительный вклад в соответствие. Возьмите "большую" модель и сделайте summary(BAR). Значение p, соответствующее переменной, присутствующей в BAR, но отсутствующей в FOO, является вашим значением p! И он, вероятно, равен 1. А квадрат t-статистики — это F-значение.
  • Если модели вложены друг в друга, и это анализ, который вы выполняете программно, а отсутствие p-значения прерывает работу в другом месте вашего скрипта, просто выполните anova(FOO,BAR)[,5:6], чтобы получить NAs вместо пробелов... но опять же, если вы делали это программно вы бы уже попробовали это.

Удачи!

person bokov    schedule 09.08.2013

Недавно я также столкнулся с этой проблемой при сравнении сегментированной линейной модели (с сегментированным пакетом) с одной точкой останова с линейной моделью без точек останова. Простая линейная модель — это вложенная модель, поскольку часть перед точкой останова может охватывать весь набор данных.

Однако сегментированная подгонка (которую я использовал с нестрогим допуском сходимости из соображений производительности) сообщила о подгонке, где остаточные суммы более сложной сегментированной модели были немного больше, чем в простой линейной модели. Конечно, наилучшее соответствие более сложной вложенной модели не должно иметь большей остаточной дисперсии, а функция анова сообщала о p-значении NA.

В этом случае очевидно, что более сложная модель не была значительно лучше, p>альфа, т.е. р=1

person thomasw    schedule 02.06.2015