В Части 1 мы рассмотрели:

  • Что такое временной ряд
  • Основные шаги в задаче прогнозирования
  • Графика временных рядов, включая временные графики, сезонные графики и сезонные подсерии
  • Компоненты и декомпозиция временных рядов.

Все сопровождалось теорией и кодом.

Во второй части мы продолжим наше путешествие с:

  • Стационарность
  • Автокорреляция
  • График разброса лагов
  • Простая скользящая средняя
  • Экспоненциально взвешенное скользящее среднее
  • Двойное и тройное экспоненциальное сглаживание

Давайте вспомним наш набор данных, взглянув на его первые строки.

1. Стационарность

Стационарный временной ряд - это тот, свойства которого не зависят от времени, в которое этот ряд наблюдается. Таким образом, временные ряды с трендами или сезонностью не являются стационарными - тренд и сезонность будут влиять на значение временного ряда в разное время. С другой стороны, серия белого шума является стационарной - не имеет значения, когда вы ее наблюдаете, она должна выглядеть примерно так же в любой момент времени.

Временной ряд с циклическим поведением (но без тренда или сезонности) является стационарным. Это связано с тем, что циклы не имеют фиксированной длины, поэтому, прежде чем мы будем наблюдать за сериями, мы не можем быть уверены, где будут пики и впадины циклов. То есть статистические свойства ряда, такие как среднее значение, дисперсия и автокорреляция, постоянны во времени.

Большинство методов статистического прогнозирования предназначены для работы со стационарными временными рядами. Первым шагом в процессе прогнозирования обычно является преобразование нестационарного ряда в стационарный. Прогнозировать стационарный ряд относительно проще, а прогнозы более надежны.

Мы знаем, что линейная регрессия работает лучше всего, если предикторы (переменные X) не коррелируют друг с другом. Таким образом, стационаризация ряда решает эту проблему, поскольку устраняет любую стойкую автокорреляцию, тем самым делая предикторы (запаздывания ряда) в моделях прогнозирования практически независимыми.

Чтобы сделать временной ряд стационарным, мы можем:

  • Разница в серии один или несколько раз (вычитание следующего значения на текущее значение)
  • Возьмите журнал ряда (помогает стабилизировать дисперсию временного ряда).
  • Возьмите корень nₜₕ из ряда
  • Комбинации вышеперечисленного

Но сначала, чтобы проверить, является ли временной ряд стационарным, мы можем:

  • Посмотрите на временной график.
  • Разделите серию на 2 части и вычислите описательную статистику. Если они различаются, то это не стационарно.
  • Выполните статистические тесты, называемые Модульные корневые тесты, такие как Расширенный тест Дики Фуллера (тест ADF), тест Квятковски-Филлипса-Шмидта-Шина - KPSS (стационарный тренд) и тест Philips Perron. (Тест PP).

Чаще всего используется тест ADF , в котором нулевая гипотеза состоит в том, что временной ряд имеет единичный корень (или случайное блуждание с дрейфом) и является нестационарным. Итак, если значение P в тесте ADF меньше уровня значимости (0,05), вы отклоняете нулевую гипотезу, и ряд остается стационарным.

Это выводит:

Серия стационарная. Тем не менее, p-значение = 0,04967, и мы можем применить разницу, чтобы увидеть ее эффект.

2. Автокорреляция

Подобно тому, как корреляция измеряет степень линейной связи между двумя переменными, автокорреляция измеряет линейную связь между запаздывающими значениями временного ряда, например между yₜ и yₜ₋₁. Если ряд значительно автокоррелирован, это означает, что предыдущие значения ряда (запаздывания) могут быть полезны при прогнозировании текущего значения.

Частичные автокорреляции измеряют линейную зависимость одной переменной после устранения влияния других переменных, влияющих на обе переменные. То есть частичная автокорреляция при лаге k - это автокорреляция между y ₜ и y ₜ + yₜ₊ₖ, которая не учитывается лагами. От 1 до k −1. По сути, мы строим график зависимости между остатками предыдущего дня / месяца по сравнению с реальными значениями текущего дня. В целом мы ожидаем, что частичная автокорреляция снизится довольно быстро.

Для автокорреляции ось Y представляет собой значение корреляции между значением и его запаздыванием. Отставание находится по оси абсцисс. Корреляция нулевой задержки равна 1, потому что она идеально коррелирует сама с собой. График показывает очень высокую автокорреляцию для 6ₜₕ и 12ₜₕ месяцев, а также месяцев до и после них.

3. График разброса лагов

Полезный тип графика для изучения взаимосвязи между каждым наблюдением и запаздыванием этого наблюдения называется графиком рассеяния.

В Pandas есть встроенная функция именно для этого, называемая графиком отставания. Он отображает наблюдение в момент времени t на оси x и наблюдение lag1 (t-1) на оси y.

  • Если точки сгруппированы вдоль диагональной линии от нижнего левого угла до верхнего правого угла графика, это свидетельствует о положительной корреляционной связи.
  • Если точки сгруппированы вдоль диагональной линии от верхнего левого угла до нижнего правого угла, это указывает на отрицательную корреляционную связь.
  • Любые отношения хороши, насколько их можно смоделировать.
  • Больше точек ближе к диагональной линии предполагает более сильную взаимосвязь, а больший разброс от линии предполагает более слабую взаимосвязь.
  • Мяч посередине или разброс по сюжету говорит о слабых отношениях или их отсутствии.

4. Скользящее среднее.

Скользящее среднее - это оценка цикла тренда в момент времени t, полученная путем усреднения значений временного ряда в течение k периодов времени t. Наблюдения, близкие по времени, также, вероятно, будут иметь близкую ценность. Таким образом, среднее значение устраняет некоторую случайность в данных, оставляя компонент плавного цикла тренда.

У базового SMA есть несколько слабых мест:

  • Окна меньшего размера будут давать больше шума, чем сигнала.
  • Он всегда будет отставать на размер окна.
  • Из-за усреднения он никогда не достигнет полного пика или минимума данных.
  • На самом деле он не информирует вас о возможном будущем поведении, все, что он на самом деле делает, это описывает тенденции в ваших данных.
  • Экстремальные исторические значения могут значительно исказить SMA.

Существует разновидность простой скользящей средней, которая называется Экспоненциально взвешенная скользящая средняя (EWMA).

Это позволит нам уменьшить эффект запаздывания от SMA и придаст больший вес значениям, которые произошли в последнее время (путем применения большего веса к более поздним значениям, таким образом, к имени). Величина веса, применяемого к самым последним значениям, будет зависеть от фактических параметров, используемых в EWMA, и количества периодов с учетом размера окна.

5. Двойное и тройное экспоненциальное сглаживание.

Если простое экспоненциальное сглаживание использует только один коэффициент сглаживания α (альфа), Двойное экспоненциальное сглаживание добавляет второй коэффициент сглаживания β (бета), который учитывает тенденции в данных. Как и альфа-фактор, значения бета-фактора находятся в диапазоне от нуля до единицы (0 ‹β ≤10‹ β≤1). Преимущество здесь состоит в том, что модель может предвидеть будущие увеличения или уменьшения, тогда как модель уровней будет работать только на основе недавних расчетов.

Мы также можем рассмотреть различные типы изменений (рост / спад) в тренде. Если временной ряд показывает прямолинейный наклонный тренд, следует использовать аддитивную корректировку. Если временной ряд показывает экспоненциальный (изогнутый) тренд, вы должны использовать мультипликативную корректировку.

Тройное экспоненциальное сглаживание, метод, наиболее тесно связанный с методом Холта-Винтерса, добавляет поддержку как тенденций, так и сезонности в данных.

Вот и все! Спасибо за чтение, увидимся в следующий раз!

Использованная литература: