Я пытаюсь оценить модель регрессии для набора данных с одной непрерывной зависимой переменной (y) и тремя категориальными независимыми переменными (x1,x2,x3). Например, представьте, что y — это цена, которую вы платите за смартфон, а x — это три функции (скажем, цвет, размер и место для хранения).
Я предполагаю, что каждая функция представляет собой мультипликативный фактор по отношению к (неизвестной) базовой цене. Таким образом, если базовая цена вашего телефона составляет 100, красный цвет увеличит ее на 25%, большой размер уменьшит ее на 50%, а большой объем памяти увеличит на 75%. Это означает, что окончательная цена телефона будет 100 х (1+0,25) х (1-0,50) х (1+0,75) = 109,375.
Проблема в том, что я знаю только конечную цену (а не базовую цену) и отдельные характеристики. Как я могу оценить мультипликативные факторы, связанные с этими функциями? Я написал краткое моделирование в R ниже, чтобы проиллюстрировать эту проблему.
Спасибо за вашу помощь в этом,
Майкл
x_fun <- function() {
tmp1 <- runif(N)
tmp2 <- cut(tmp1, quantile(tmp1, probs=c(0, 1/3, 2/3, 3/3)))
levels(tmp2) <- seq(1:length(levels(tmp2)))
tmp2[is.na(tmp2)] <- 1
as.factor(tmp2)}
N <- 1000
x1 <- x_fun()
x2 <- x_fun()
x3 <- x_fun()
f1 <- 1+0.25*(as.numeric(x1)-2)
f2 <- 1+0.50*(as.numeric(x2)-2)
f3 <- 1+0.75*(as.numeric(x3)-2)
y_Base <- runif(min=0, max=1000, N)
y <- y_Base*f1*f2*f3
output <- data.frame(y, x1, x2, x3)
rm(y_Base, f1, f2, f3, N, y, x_fun, x1, x2, x3)
glm
модели. Обратимся к вашему примеру: как бы вы определили цену телефона без размера и без экрана? Люди обычно берут за основу телефон с самыми низкими характеристиками. - person niczky12   schedule 20.09.2016y_Base
, изменяющаяся от 0 до 1000 со средним значением около 500. - person Hack-R   schedule 20.09.2016y_Base
быть значительно ниже среднего значенияy
? Кажется, чтоy
имеет больший диапазон, но средние значения равны (+/- небольшая случайная вариация). - person Hack-R   schedule 20.09.2016