Сравнение моделей нелинейной регрессии

Я хочу сравнить кривые трех моделей по значениям r-квадрата. Я запускал модели с помощью пакетов nls и drc. Однако оказывается, что ни один из этих пакетов не вычисляет значения r-квадрата; они дают «остаточную стандартную ошибку» и «остаточную сумму квадратов».

Можно ли использовать эти два для сравнения подгонки модели?


r nls
person Learner    schedule 23.02.2014    source источник
comment
Вы не должны использовать r-квадрат для сравнения моделей. На самом деле, я немного скептически отношусь к тому, почему вы хотите сравнивать разные нелинейные модели. Выбор модели для нелинейного моделирования лучше всего основывается на научных проблемах.   -  person Roland    schedule 23.02.2014
comment
@Roland Я сравниваю две модели роста водорослей. Поэтому я хотел посмотреть, какой из них лучше объясняет данные о росте (полученные в результате лабораторных экспериментов). Извините, что не понятно объяснил вопрос.   -  person Learner    schedule 23.02.2014


Ответы (1)


Это действительно вопрос статистики, а не вопрос кодирования: рассмотрите возможность публикации на stats.stackexchange.com; вы, вероятно, получите лучший ответ.

RSQ на самом деле не имеет смысла для нелинейной регрессии. Вот почему summary.nls(...) не предоставляет его. См. этот пост для объяснения.

Существует распространенная и понятная тенденция надеяться на единую статистику, позволяющую оценить, какая из моделей лучше соответствует набору данных. К сожалению, это так не работает. Вот некоторые вещи, которые следует учитывать.

  1. Как правило, лучшая модель та, которая имеет механистическую основу. Отражают ли ваши модели какой-то физический процесс, или вы просто пытаетесь решить кучу математических уравнений и надеетесь на лучшее? Первый подход почти всегда приводит к лучшим моделям.
  2. Вы должны рассмотреть, как модели будут использоваться. Будете ли вы интерполировать (например, оценивать y | x в пределах диапазона вашего набора данных) или будете экстраполировать (оценивать y | x за пределами диапазона ваших данных)? Некоторые модели дают подгонку, которая обеспечивает относительно точные оценки немного за пределами диапазона набора данных, а другие полностью разваливаются.
  3. Иногда подходящая техника моделирования определяется типом имеющихся у вас данных. Например, если у вас есть данные, которые что-то подсчитывают, то y, вероятно, имеет распределение Пуассона, и указывается обобщенная линейная модель (glm) в семействе Пуассона. Если ваши данные являются бинарными (например, только два возможных результата, успех или неудача), то указывается биномиальный glm (так называемая логистическая регрессия).
  4. Ключевое допущение, лежащее в основе метода наименьших квадратов, состоит в том, что ошибка в y нормально распределяется со средним значением 0 и постоянной дисперсией. Мы можем проверить это после выполнения подгонки, посмотрев на график стандартизированных остатков по сравнению с y и посмотрев на нормальный график Q-Q остатков. Если график остатков показывает, что разброс увеличивается или уменьшается с увеличением y, то модель не является хорошей. Если график нормального Q-Q не близок к прямой линии, то остатки не распределены нормально и, вероятно, указана другая модель.
  5. Иногда определенные точки данных имеют сильное влияние на данную модель, а это означает, что подгонка чрезмерно зависит от этих точек. Если это проблема, вы увидите ее на графике кредитного плеча. Это указывает на слабую модель.
  6. Для данной модели может случиться так, что не все параметры значительно отличаются от 0 (например, p-значение коэффициента > 0,05). Если это так, вам нужно изучить модель без этих параметров. В случае с nls это часто подразумевает совершенно другую модель.
  7. Предполагая, что ваша модель проходит вышеуказанные тесты, разумно посмотреть на F-статистику для подгонки. По сути, это отношение SSR/SSE с поправкой на степень свободы в регрессии (R) и остатки (E). Модель с большим количеством параметров, как правило, будет иметь меньшую остаточную SS, но это не делает ее лучшей моделью. F-статистика объясняет это тем, что модели с большим количеством параметров будут иметь большую степень свободы регрессии и меньшую остаточную степень свободы, что делает F-статистику меньше.
  8. Наконец, рассмотрев вышеизложенное, вы можете рассмотреть остаточную стандартную ошибку. Как правило, при прочих равных условиях, чем меньше остаточная стандартная ошибка, тем лучше. Проблема в том, что все остальные вещи никогда не равны. Вот почему я бы рекомендовал смотреть на RSE в последнюю очередь.
person jlhoward    schedule 23.02.2014
comment
Спасибо @jlhoward за подробный ответ. Это действительно полезно. Что касается моделей, да, они объясняют физические процессы. Я изучаю кинетику роста водорослей. Я просто хотел сравнить две модели роста и посмотреть, какая из них лучше соответствует экспериментальным данным и, следовательно, лучше предсказывает рост в водоеме. Спасибо еще раз! - person Learner; 23.02.2014