Это старый вопрос, но я хотел бы указать на то, что легко пропустить и что может привести к серьезным ошибкам. предыдущий ответ dickoa верен, но я подумал, что уточню, зачем нужен такой обходной путь, поскольку он может не быть очевидным.
При чтении другой темы я узнал следующее: Как уже отмечалось, здесь, plm не обязательно хранит данные в том же порядке, в котором они были переданы функции. Это означает, что простое использование функции residuals()
для plm-объекта и последующее присоединение ее к вашим данным может привести к тому, что неправильные остатки будут сгруппированы в неправильную строку данных, если вы не будете осторожны! В качестве примера рассмотрим следующее:
require(plm)
data("Gasoline") # The Gasoline dataset from the plm package
plm1 <- plm(lgaspcar ~ lincomep + lrpmg + lcarpcap, data=Gasoline, method = "within", index = c("country", "year"))
coef(plm1)
lincomep lrpmg lcarpcap
0.6622497 -0.3217025 -0.6404829
head(residuals(plm1))
1 2 3 4 5 6
-0.18814207 -0.19642727 -0.14874420 -0.12476346 -0.12114060 -0.08684045
Обратите внимание на остатки, которые нам дали. Теперь давайте просто изменим порядок, в котором упорядочен набор данных. Это не должно ничего изменить в анализе.
set.seed(1234)
Gasoline2 <- Gasoline[order(runif(nrow(Gasoline))), ] # We just change the order of the rows.
plm2 <- plm(lgaspcar ~ lincomep + lrpmg + lcarpcap, data=Gasoline2, method = "within", index = c("country", "year"))
coef(plm2)
lincomep lrpmg lcarpcap
0.6622497 -0.3217025 -0.6404829
head(residuals(plm2))
258 7 64 73 268 186
-0.18814207 -0.19642727 -0.14874420 -0.12476346 -0.12114060 -0.08684045
На первый взгляд это кажется прекрасным; расчетные коэффициенты такие же, как и раньше. Однако обратите внимание, что порядок, в котором представлены остатки, такой же, как и до того, как мы передвинули строки. Единственное, что изменилось, это то, что имена, связанные с остатками, теперь отражают их новое положение в данных. Таким образом, наблюдение, что пост-переупорядочивание находится в строке 1 данных, было предварительным переупорядочиванием в строке 258.
Gasoline2[1, ]
country year lgaspcar lincomep lrpmg lcarpcap
258 SWEDEN 1970 3.989372 -7.73261 -2.733592 -8.164506
Gasoline[258, ]
country year lgaspcar lincomep lrpmg lcarpcap
258 SWEDEN 1970 3.989372 -7.73261 -2.733592 -8.164506
Это означает, что если бы у нас был Gasoline2 в качестве нашего набора данных, с которым мы работали, то использование такой функции, как cbind()
на Gasoline2
и residuals(plm2)
, привело бы к неправильным остаткам, связанным с наблюдениями.
head(cbind(Gasoline, residuals(plm1)))
country year lgaspcar lincomep lrpmg lcarpcap residuals(plm1)
1 AUSTRIA 1960 4.173244 -6.474277 -0.3345476 -9.766840 -0.18814207
2 AUSTRIA 1961 4.100989 -6.426006 -0.3513276 -9.608622 -0.19642727
3 AUSTRIA 1962 4.073177 -6.407308 -0.3795177 -9.457257 -0.14874420
4 AUSTRIA 1963 4.059509 -6.370679 -0.4142514 -9.343155 -0.12476346
5 AUSTRIA 1964 4.037689 -6.322247 -0.4453354 -9.237739 -0.12114060
6 AUSTRIA 1965 4.033983 -6.294668 -0.4970607 -9.123903 -0.08684045
head(cbind(Gasoline2, residuals(plm2)))
country year lgaspcar lincomep lrpmg lcarpcap residuals(plm2)
258 SWEDEN 1970 3.989372 -7.732610 -2.7335921 -8.164506 -0.18814207
7 AUSTRIA 1966 4.047537 -6.252545 -0.4668377 -9.019822 -0.19642727
64 DENMARK 1966 4.233643 -5.851866 -0.3961885 -8.681541 -0.14874420
73 DENMARK 1975 4.033015 -5.612967 -0.3939543 -8.274632 -0.12476346
268 SWITZERL 1961 4.441330 -6.111640 -0.8655847 -9.158229 -0.12114060
186 JAPAN 1974 4.007964 -5.852553 -0.1909064 -8.846520 -0.08684045
Как мы видим выше, в примере с Бензином2 остатки присвоены неправильной строке.
Так что же происходит? Ну, как упоминалось ранее, plm
не сохраняет порядок наблюдений. Используя функцию attr()
dickoa, указанную в предыдущем ответе, мы видим, что plm
реорганизует данные по странам и годам.
head( attr(residuals(plm2), "index") )
country year
1 AUSTRIA 1960
2 AUSTRIA 1961
3 AUSTRIA 1962
4 AUSTRIA 1963
5 AUSTRIA 1964
6 AUSTRIA 1965
Именно так были структурированы исходные данные о бензине, поэтому остатки представлены в том же порядке.
Таким образом, мы можем использовать тот факт, что attr(residuals(plm2), "index")
дает нам остатки и соответствующие индикаторы страны и года, чтобы добавить остатки к исходным данным. Как указано здесь, пакет plyr
очень полезен для этого.
require(plyr)
resids2 <- data.frame(residual = residuals(plm2), attr(residuals(plm2), "index"))
Gasoline2$year <- factor(Gasoline2$year) # Needed since resids2$year is a factor, and Gasoline2$years was an integer. plyr does not accept them to be of different types.
Gasoline2 <- join(Gasoline2, resids2, by = c("country", "year"))
head(Gasoline2)
country year lgaspcar lincomep lrpmg lcarpcap residual
1 SWEDEN 1970 3.989372 -7.732610 -2.7335921 -8.164506 -0.02468148
2 AUSTRIA 1966 4.047537 -6.252545 -0.4668377 -9.019822 -0.02479759
3 DENMARK 1966 4.233643 -5.851866 -0.3961885 -8.681541 0.03175032
4 DENMARK 1975 4.033015 -5.612967 -0.3939543 -8.274632 -0.06575219
5 SWITZERL 1961 4.441330 -6.111640 -0.8655847 -9.158229 -0.05789130
6 JAPAN 1974 4.007964 -5.852553 -0.1909064 -8.846520 -0.21957156
Что дает нам правильный результат.
person
Phil
schedule
14.08.2019
iris$residuals <- plm1$residuals
Вы можете использоватьsplit
илиplyr
для выполнения R^2 по группам. - person Richard Herron   schedule 05.08.2014complete.cases
, чтобы убедиться, что в моих данных нет пропущенных наблюдений. - person Richard Herron   schedule 05.08.2014