Предварительные данные, необходимые для прогнозирования.

В моей первой статье о временных рядах я надеюсь представить основные идеи и определения, необходимые для понимания базового анализа временных рядов. Мы начнем с основных и ключевых математических определений, которые необходимы для реализации более сложных моделей. Информация будет представлена ​​аналогично тому, как это было в Курсе для выпускников Макгилла по этому предмету, и в соответствии со стилем учебника Броквелл и Дэвис.

Вступление:

«Временной ряд» - это набор наблюдений, проиндексированных по времени. Каждое наблюдение происходит в некоторый момент времени t, где t принадлежит набору разрешенных моментов времени, T.

Примечание. T может быть дискретным, и в этом случае у нас есть дискретный временной ряд, или он может быть непрерывным в случае непрерывного временного ряда. Иногда мы называем одно наблюдение временного ряда {Xt} реализацией ряда.

Примеры временных рядов включают DOW Jones, простой ряд, показывающий, шел ли дождь каждый день или нет, или ряды ВВП по годам.

'Модель временных рядов' для временных рядов {Xt} - это спецификация совместного распределения вероятностей модели (однако часто мы рассматриваем модель только для среднего и первые несколько моментов).

За исключением особых случаев, временной ряд будет иметь определенное и конечное среднее значение;

И при условии, что существуют моменты более высокого уровня, ковариация временного ряда во времени «t» и времени «s»;

Среднее значение временного ряда может зависеть от t, а может и не зависеть. Точно так же ковариация между двумя временами может зависеть от t или нет, это станет более понятным на примерах.

Стационарность:

Временной ряд называется «слабо стационарным», если выполняются следующие два условия.

  1. Среднее значение временного ряда не зависит от времени.

2. Ковариация между любыми двумя точками на одинаковом расстоянии друг от друга постоянна. (Например, ковариация между реализациями на расстоянии трех точек друг от друга должна быть постоянной независимо от t).

Примечание. будет полезно напомнить, что дисперсию и ковариацию можно линейно разделить следующим образом;

Если временной ряд слабо стационарен, ковариация между любыми двумя точками не будет зависеть от времени. Таким образом, оно будет постоянным или зависеть только от того, насколько далеко друг от друга находятся две точки. Слабо стационарные ряды намного легче прогнозировать, поэтому большая часть анализа временных рядов включает попытки свести более сложные ряды к стационарным.

Примечание. Строгая стационарность требует, чтобы вся функция распределения не изменялась со временем, что сложнее проверить и выполнить. Таким образом, мы пока сосредоточимся на слабой стационарности.

Функция автоковариации (ACVF):

Функция автокорреляции (ACF):

На самом деле мы чаще работаем с автокорреляционной функцией временного ряда. В частности, АКФ стационарного временного ряда определяется как;

Два приведенных выше определения работают с четко определенными случайными величинами. Однако на практике мы работаем с реальными данными и поэтому не знаем теоретических ACVF или ACF. Таким образом, нам необходимо представить их образцы-аналоги.

Пример ACVF и ACF:

Гораздо чаще мы работаем с данными из неизвестного распределения (то есть наблюдаемого набора данных), поэтому необходимо определить следующее: выборочное среднее, функция автоковариации выборки и автокорреляция выборки. Они будут использоваться очень часто, и их построение дает нам представление о наших временных рядах.

Фундаментальные временные ряды:

Давайте теперь начнем смотреть на фундаментальные теоретические временные ряды, которые используются для построения продвинутых моделей.

IID шум:

Одним из простейших примеров временного ряда является IID-шум (независимый одинаково распределенный шум). Это серия {X1, X2, ..}, где каждая реализация Xt независима и от некоторого идентичного распределения, такого как Нормальное (0, σ²).

Является ли шум IID слабо стационарным?

По определению, ожидаемое значение в любой точке постоянно (ноль). Это первый критерий.

И ковариация между любыми двумя точками на расстоянии h единиц составляет;

Что не зависит от t (зависит только от h), что является вторым условием. Таким образом, шум IID является слабо стационарным. Мы также могли бы вычислить автокорреляцию, которая просто равна 1, если h равно нулю, и 0 в противном случае.

Случайная прогулка:

Предположим, теперь каждый Xt является нормальным IID (0, σ ²). Затем временной ряд случайного блуждания, {St}, определяется как;

Из определения понятно, почему это называется случайным блужданием. Первый элемент временного ряда - это просто случайное наблюдение IID. Затем мы добавляем еще одно случайное наблюдение и повторяем.

Поскольку каждый X является нормальным IID, ожидаемое значение в любой момент времени t равно 0. Более того, из определения дисперсии;

Var (St) = E (St²) -E (St) ² = E ((St) ²) = σ².

Таким образом, мы можем упростить ковариацию между точками t и t + h, используя линейное разложение

Что зависит от t, случайное блуждание не является слабо стационарным.

Белый шум:

Белый шум (иногда называемый «статическим») похож на IID-шум. Если Xt представляет собой последовательность некоррелированных наблюдений с нулевым средним с одинаковой дисперсией σ², мы говорим, что это белый шум. Шум IID - это белый шум, но не весь белый шум - это шум IID.

В чем разница между IID-шумом и белым шумом? Вы можете заметить, что определение белого шума не налагает ограничений на моменты более высокого порядка, поэтому, например, в нем ничего не говорится о E (X10). Но для IID-шума все моменты равны. Напомним, что некоррелированный означает, что E (XtXs) = 0, если t = s.

Дополнительные факты о белом шуме:

  • Белый шум имеет постоянную спектральную плотность мощности.
  • Единственная реализация белого шума известна как случайный шок.

Модель скользящего среднего:

Модель скользящего среднего - один из самых фундаментальных временных рядов. Мы рассматриваем наиболее простой вариант, модель MA (1), которую можно записать как сумму членов белого шума и действительного параметра θ.

Из-за линейности ожидания очевидно, что математическое ожидание модели MA (1) равно нулю и, следовательно, постоянно для любого t. Ковариация между временем t и временем t + h может быть получена; для h = 0 это будет дисперсия.

В противном случае ковариация будет отличной от нуля тогда и только тогда, когда t и t + h разделены только на 1 единицу, потому что;

В противном случае ковариация будет равна нулю, что можно подтвердить, записав ее в форме ковариации, приведенной выше. Таким образом:

Мы также можем получить функцию автокорреляции, поскольку мы знаем значение ACVF при h = 0. В основном γ (0) = σ² (1 + θ²), поэтому ACF:

Поскольку среднее значение постоянно равно нулю (независимо от t), а ковариация также не зависит от t, модель MA (1) является слабо стационарной.

Примечание.

  • Модель MA (q) аналогична, но с предыдущими q дополнительными условиями.

Авторегрессия:

Модель авторегрессии - это еще один фундаментальный временной ряд, который используется в качестве строительного блока для более сложных рядов. Для моделей авторегрессии мы предполагаем, что {Xt} слабо стационарен. Модели авторегрессии зависят от своих предыдущих значений, а также от добавления масштабированного некоррелированного (Z и X некоррелированного) члена белого шума . Серия AR (1) самая простая;

Чтобы получить характеристики ряда, отметим, что, поскольку мы предполагаем, что {Xt} стационарен, непосредственно следует, что ожидаемое значение ряда в любой момент времени t равно 0.

Мы можем вычислить функцию автоковариации для любых точек на расстоянии h единиц;

Расширяя и используя линейность ковариационной функции, мы получаем упрощенный вид;

Что дает нам решение, переведя члены в одну сторону уравнения;

Поскольку γ (h) = γ (-h) (ковариация симметрична), мы можем значительно упростить автокорреляцию (ACF):

Дополнительные факты:

  • Так же, как модели MA (q), модели AR могут быть расширены до произвольного числа членов, то есть моделей AR (q).
  • Модель AR не всегда стационарна, особенно если она содержит единичный корень. Однако в этой статье мы предполагаем, что у нас нет единичного корня (ϕ ≠ 1).
  • Модели AR являются частным случаем моделей VAR (модели векторной авторегрессии).

Двигаемся дальше:

Модель скользящего среднего, модель авторегрессии и белый шум составляют основу большинства реальных временных рядов, используемых на практике. Например, они являются строительными блоками моделей ARMA и ARIMA. Теперь, когда мы рассмотрели некоторые теоретические временные ряды, давайте перейдем к практическим временным рядам.

Каковы некоторые общие характеристики временных рядов? Чтобы понять идею, давайте начнем с смоделированного примера. Рассмотрим следующий график временного ряда;

Вы можете заметить несколько особенностей сюжета;

  • В целом растущая «тенденция»

  • Повторяющийся или «сезонный» компонент

Тренд и сезонность составляют фундаментальную часть временного ряда. Действительно, большая часть анализа и прогнозирования временных рядов включает в себя попытку понять тенденции и сезонные компоненты ряда. Важность этих двух качеств приводит к «фундаментальному разложению».

Фундаментальное разложение:

Полезно представить себе временной ряд как состоящий из трех отдельных частей. Тренд, Сезонность и Случайный шум.

Где ожидаемое значение шума Yt равно нулю.

Тренд. Тренд - это наклон в области временного ряда. Например, мы могли бы иметь тенденцию к росту в течение определенного периода времени. Мы также можем иметь тенденцию к снижению. Серии с трендом обычно не будут стационарными, так как среднее значение меняется в зависимости от времени.

Сезонность: это больше, чем просто тенденция, это повторяющийся образец, он может быть еженедельно, ежегодно или с другим фиксированным интервалом. Сезонность представляет собой повторяющееся и четкое изменение временного ряда.

  • Подгонку сезонности можно выполнить с помощью гармонической регрессии . Это включает, например, подборку ряда с множеством синусов и косинусов (упрощение).

На практике:

До сих пор мы изучили математические детали, которые покрывают идеальный временной ряд. В действительности у нас почти никогда не будет ряда, полностью представленного моделью скользящего среднего или авторегрессионной моделью. Эти идеальные модели просто образуют каркас, который мы будем использовать для более продвинутых моделей. Мы должны продемонстрировать, почему образец ACF полезен и что он может рассказать нам о таймсерии.

Давайте проработаем несколько реальных примеров и посмотрим, чему мы можем из них научиться. Мы будем использовать R-пакет itsmr, который поставляется с предварительно загруженными наборами данных.

Данные по австралийскому красному вину:

Этот набор данных («вино» в пакете itsmr) состоит из 142 ежемесячных наблюдений за продажами красного вина в Австралии (на 1000 литров). Давайте построим это.

Ясно, что есть тренд, а также сезонная составляющая. В целом продажи вина растут, причем в зависимости от сезона продажи вина увеличиваются летом и снижаются в зимние месяцы. Давайте посмотрим на образец ACF. R может рассчитать это автоматически с помощью функции acf.

Примечание: медленно затухающая выборка acf (| ρ (h) |) указывает на тенденцию и, следовательно, нестационарность! Это имеет смысл; мы увидели, что продажи вина имеют тенденцию к росту.

Периодическая выборка acf указывает на сезонность во временном ряду. Это также имеет смысл, поскольку мы видели, что продажи вина резко увеличиваются в летние месяцы и сводятся к минимуму в зимние месяцы.

Таким образом, чтобы делать прогнозы на основе данных по австралийским винам, нам необходимо учитывать тенденцию и сезонность. Тренд обычно можно учесть, применяя монотонное преобразование, такое как преобразование журнала. Это должно помочь уменьшить тенденцию и приблизить данные к стационарному ряду. Другие методы включают сглаживание и фильтрацию.

Сезонная составляющая также должна соответствовать, обычно это можно сделать с помощью тригонометрических функций с помощью гармонической регрессии.

Резюме:

В этой статье представлены основные математические детали, необходимые для изучения анализа временных рядов. Модель скользящего среднего, модель авторегрессии и белый шум образуют фундаментальные строительные блоки для более сложных рядов. Мы узнали о стационарности, которая говорит нам о том, как ряд изменяется с течением времени. Мы также узнали о важной статистике выборки, на которую следует обратить внимание при работе с временными рядами, например о функции автокорреляции выборки.

Наконец, мы обсудили обычную декомпозицию временного ряда на тренд, сезонную и случайную составляющие и коснулись того, почему они важны.

В будущих статьях я надеюсь более подробно рассказать, как мы можем прогнозировать временные ряды. Общие шаги следующие:

  1. Постройте временной ряд.

2. Определите тренд и сезонную составляющую. При необходимости рассмотрите возможность преобразования переменных (например, преобразования журнала).

3. Удалите (вычтите) тренд и сезонные компоненты, чтобы получить стационарные остатки.

4. Установите остатки

5. Выполните прогнозирование остатков, затем получите прогнозы для исходного ряда путем преобразования.

Поздравляем, вы узнали основы анализа временных рядов. Когда вы ознакомитесь с этими основами, вы сможете перейти к более сложным темам, таким как прогнозирование. В своих следующих статьях о временных рядах я надеюсь представить модели ARMA и ARIMA и обсудить Бокса Дженкинса, Холта Винтерса, обработку сигналов и преобразования Фурье, а также модели ARCH / GARCH / FGARCH.

Спасибо за чтение! Вам понравилась эта статья или вы узнали что-то новое? Если так, пожалуйста, подумайте о том, чтобы проверить мои другие статьи на Medium, и подумайте о том, чтобы дать статье аплодисменты или поделиться ими. Кроме того, не стесняйтесь оставлять комментарии или исправления ниже.

Источники:

[1] Броквелл и Дэвис (2002) Введение в временные ряды и прогнозирование.

[2] TensorFlow in Practice Specialization (2020) - Последовательности, временные ряды и прогнозирование (Coursera через DeepLearning.AI).

[3] Веб-страница STAT 510 Государственного университета Пенсильвании.

[4] Р. Шамвей, Д. Стоффер (2011) Анализ временных рядов и его приложения. Третье издание.

[5] Фуллер (2009) Введение в статистические временные ряды