Корреляция и автокорреляция

Корреляция, часто представляемая как коэффициент корреляции Пирсона, суммирует силу взаимосвязи между переменными. Моделирование временных рядов использует концепцию корреляции и применяет ее еще на один шаг к автокорреляции. Автокорреляция — это корреляция наблюдения с предыдущими наблюдениями (лагами). Временной ряд с большей автокорреляцией более предсказуем, чем временной ряд без автокорреляции.

Частичная автокорреляция

Частичная автокорреляция измеряет корреляцию между наблюдениями, исключая влияние других наблюдений за временем. Например, мы знаем, что для цены акции будет автокорреляция между сегодняшним и вчерашним днем. Однако, поскольку вчерашний день коррелирует с позавчерашним, позавчерашний день будет иметь влияние на сегодняшний день. Поэтому смотрим на частичную автокорреляцию сегодняшнего и вчерашнего дня, которая нивелирует эффект позавчера. По существу, это «реальная» корреляция без отношения промежуточных наблюдений.

Почему они важны?

Автокорреляция и частичная автокорреляция используются для определения количества членов авторегрессионной модели (AR) и количества членов скользящего среднего (MA). Мы можем визуализировать эти показатели с помощью функции автокорреляции (ACF) и функции частичной автокорреляции (PACF). Не теряясь в математике, мы исследуем автокорреляцию с задержкой p и частичную автокорреляцию с задержкой q, чтобы решить, сколько терминов нам нужно использовать:

Рассмотрим пример выше. Здесь ACF и PACF визуализируются с задержками до 25. Синяя линия представляет наш уровень значимости, что означает, что задержки с ACF или PACF выше этой синей линии являются статистически значимыми. При рассмотрении того, какие термины использовать, более простая модель обычно предпочтительнее. В этом случае мы видим 2 значимых наблюдения PACF и несколько значимых наблюдений ACF. Придерживаясь правила «чем проще, тем лучше», лучшей моделью будут два термина AR. Мы выбираем два термина AR, потому что PACF значим для двух задержек.

Рассмотрим другой пример ниже:

Здесь мы видим одно значимое наблюдение ACF и три значительных наблюдения PACF. Наше правило «чем проще, тем лучше» гласит, что мы выбираем один термин MA. Мы выбираем один термин MA, потому что ACF является значимым для одного лага.

А модели ARMA?

Термины AR и MA не являются взаимоисключающими. Некоторые данные временных рядов лучше всего работают с терминами AR и MA. Рассмотрим пример ниже:

Мы наблюдаем три значительных задержки PACF и несколько значительных задержек ACF. Здесь мы могли бы выбрать три термина AR, соответствующие трем значительным задержкам PACF. Однако лучшим вариантом было бы иметь один термин MA и один термин AR. И ACF, и PACF затухают, указывая на то, что вчерашние ACF и PACF являются значительными. Поэтому мы бы выбрали модель ARMA (1, 1). В приведенной ниже таблице показано, когда подходит каждая модель:

Сводка

  1. Используйте ACF и PACF, чтобы визуализировать, сколько терминов AR или MA нам нужно
  2. Если АКФ обрывается после задержки q, а PACF падает, то мы выбираем условия qMA: MA(0, q)
  3. Если ACF ослабевает, а PACF обрывается после задержки p, то мы выбираем pусловия AR: AR(p,0)
  4. Если и ACF, и PACF сокращаются, нам, вероятно, понадобятся оба термина pAR и q MA: ARMA(p, q)

Ссылка на мой анализ временных рядов цен на жилье в лучших почтовых индексах Америки.