Ну, сначала полная форма: авторегрессивная интегрированная скользящая средняя, ​​довольно много.

Что такое временной ряд?

  • Данные временного ряда – это набор наблюдений или точек данных, записанных через разные, регулярные или почти равные промежутки времени. Частота этих записанных точек данных может быть ежечасной, ежедневной, еженедельной, ежемесячной или ежегодной.
  • Прогнозирование временных рядов – это метод использования статистических моделей для прогнозирования будущих значений на основе данных временных рядов.

Компоненты временного ряда

  • Тенденция — показывает общее направление данных временного ряда за длительный период времени. Эта тенденция может быть возрастающей, убывающей или стационарной.
  • Сезонность. Компонент сезонности — это, по сути, тенденция, которая повторяется в зависимости от времени, направления и величины. ex — больше продаж курток зимой или более высокие счета за электроэнергию летом и т. д.
  • Цикличность. Это повторения, но они не обязательно следуют определенному шаблону или сезону и в основном происходят во время бизнес-циклов. Эти изменения проявляются не в течение короткого периода времени, а в течение от 3 до 12 лет.
  • Нерегулярная вариация. Это флуктуации данных временного ряда, которые становятся очевидными, когда удаляются трендовые и циклические вариации. Эти вариации непредсказуемы, хаотичны и могут быть, а могут и не быть случайными.
  • Декомпозиция ETS — декомпозиция ETS используется для разделения различных компонентов временного ряда. Термин ETS расшифровывается как Error, Trend и Seasonality.

Терминология

  • Зависимость — это связь двух наблюдений одной и той же переменной в предыдущие периоды времени.
  • Стационарность. Показывает среднее значение ряда, которое остается постоянным в течение определенного периода времени. Если прошлые эффекты накапливаются и значения увеличиваются до бесконечности, то стационарность не соблюдается.
  • Разность. Разность используется, чтобы сделать ряд стационарным и управлять автокорреляцией. При анализе временных рядов могут быть некоторые случаи, когда нам не требуется дифференцирование, а чрезмерно дифференцированные ряды могут давать неверные оценки.
  • Спецификация. Может включать проверку линейных или нелинейных взаимосвязей зависимых переменных с использованием моделей временных рядов, таких как модели ARIMA.
  • Экспоненциальное сглаживание. Экспоненциальное сглаживание в анализе временных рядов прогнозирует значение одного следующего периода на основе прошлого и текущего значения. Он включает в себя усреднение данных таким образом, что несистематические компоненты каждого отдельного случая или наблюдения компенсируют друг друга. Метод экспоненциального сглаживания используется для прогнозирования краткосрочного прогноза.

Что такое ЛАГ?

Лаг по сути является задержкой. Таким образом, в основном задерживается ваше время в данных временных рядов. Рассмотрим набор дискретных значений, поэтому теперь, если значение запаздывания равно 1, вы сдвинете данные временного ряда на 1 и сравните этот новый временной ряд со старым.

Потребность в АРИМА

или Как определить, нуждается ли конкретный временной ряд в ARIMA?

  1. Постройте график. Если он не стоит на месте и движется вверх.
  2. Временные ряды не имеют постоянного среднего значения и дисперсии во времени. Если среднее значение движется вверх линейным образом.

Итак, если мы сможем избавиться от этой нестационарности, мы можем использовать модель AR, MA или ARMA.

Дифференциация или термин «d»

Разность — вычесть текущее значение из предыдущего. Это делается для преобразования нестационарных данных временного ряда в стационарные. Теперь иногда вам, возможно, придется выполнять разность несколько раз — и это становится порядком термина d.

Что такое AR или значение «p»?

Таким образом, авторегрессия или AR в ARIMA — это в основном количество задержек, которые объясняют текущее значение. Таким образом, Yt является функцией «лагов Yt».

ПАКФ

График функции частичной автокорреляции используется для определения значения p в уравнении AR. Мы знаем, что количество лагов, влияющих на наше текущее значение Yt, будет порядка p. Чтобы определить это значение p, мы используем график PACF.

Почему мы не можем использовать график ACF? или каково значение графика PACF?

График ACF может дать следующие ответы:

  • Является ли наблюдаемый временной ряд белым шумом/случайным?
  • Является ли наблюдение связанным с соседним наблюдением, дважды удаленным наблюдением и т. д.?
  • Можно ли смоделировать наблюдаемые временные ряды с помощью модели MA? Если да, то какой порядок?

Принимая во внимание, что PACF дает ответ на следующий вопрос:

  • Можно ли смоделировать наблюдаемые временные ряды с помощью модели AR? Если да, то какой порядок?

Здесь вклад Y2 зафиксирован в \beta_1 и лишен вклада в Y1. Таким образом, каждый член независим и не содержит вклад предыдущего лагового члена. Принимая во внимание, что ACF переносит вклад вперед, и мы не сможем судить о том, какой лаг мы должны выбрать для значения p в уравнении AR.

Теперь наш Yt в уравнениях AR объясняет закономерность/изменения в данных, так зачем нам термин MA?

$\epsilon_t$ в приведенных выше уравнениях является ошибкой. Теперь, чтобы AR было достаточно, необходимо, чтобы $\epsilon_t$ не имел внутреннего шаблона и в основном должен был быть белым шумом или случайными значениями.

Если у $\epsilon_t$ есть шаблон, это означает, что другие переменные еще не могут объяснить термин Yt, и тогда мы переходим к термину MA.

Что такое срок МА?

MA, скользящее среднее или переменная q в ARIMA используются, когда термин AR не может объяснить все изменения/паттерны в данных, а в термине ошибки $\epsilon_t$ есть шаблон.

Таким образом, Yt здесь фактически зависит от запаздывающих ошибок прогноза. Где члены ошибок - это ошибки авторегрессионных моделей соответствующих лагов.

Как определить переменную p, d, q?

d значение

Теперь, во-первых, вам нужно определить, являются ли данные стационарными или нет. Для этого одним из самых простых способов является

  1. Постройте и визуализируйте, и если есть четкая тенденция или сезонность, вам нужно применить дифференцирование. Если данные уже стационарны, то d равно 0.
  2. Тест ADF: расширенный тест Дики-Фуллера — это статистическая проверка, которая используется для проверки стационарности в наборе данных. Мы используем тест P-значения, где наша нулевая гипотеза состоит в том, что данные нестационарны. Поэтому, если значение p больше 0,05, оно нестационарно, и вам необходимо применить разность.
  3. Тест KPSS: тест KPSS (Квятковского-Филлипса-Шмидта-Шина) — это еще один статистический тест, используемый для проверки стационарности данных временного ряда. Нулевая гипотеза теста состоит в том, что данные стационарны. Если p-значение теста меньше уровня значимости, то можно отклонить нулевую гипотезу и сделать вывод, что данные нестационарны.

Теперь способ определения значения, к сожалению, является более или менее методом проб и ошибок.

d — Правильный порядок дифференцирования — это минимальное дифференцирование, которое потребуется для получения почти стационарного ряда, который будет блуждать вокруг определенного среднего значения, а график АКФ довольно быстро достигает 0.

Таким образом, если автокорреляция положительна для многих задержек, тогда ряду потребуется больше разностей.

Но если лаг 1 сам по себе отрицательный, то ряд имеет чрезмерную разницу.

значение p

Теперь значение p представляет собой количество запаздывающих наблюдений, включенных в модель для объяснения автокорреляции данных. Шаги для расчета значения p.

  1. График ACF: самый простой способ визуализировать график ACF и найти значительные пики в наборе данных, которые указывают на сильную автокорреляцию. Таким образом, количество значимых всплесков может дать нам начальную оценку значения p.
  2. График PACF: график PACF показывает корреляцию между данными временного ряда и его запаздывающими значениями с учетом влияния промежуточных значений. Значительные пики на графике PACF могут помочь уточнить оценку p.
  3. Информационный критерий Акаике (AIC): AIC является мерой относительного качества статистической модели для заданного набора данных. При этом учитывается как качество подгонки модели, так и сложность модели. Попробуйте подобрать разные модели ARIMA с разными значениями «p» и выберите значение «p», которое дает наименьшую оценку AIC.
  4. Байесовский информационный критерий (BIC): BIC похож на AIC, но более строго наказывает за сложность модели. Выберите значение «p», которое дает наименьший балл BIC.

значение q

Хотя значения «p» и «q» в моделировании ARIMA представляют разные компоненты модели, методы определения соответствующих значений «p» и «q» аналогичны. В обоих случаях цель состоит в том, чтобы определить запаздывающие переменные, которые имеют значительную корреляцию с данными временных рядов, чтобы зафиксировать основные закономерности и тенденции.

Первым шагом в определении значений «p» и «q» является изучение графиков функции автокорреляции (ACF) и функции частичной автокорреляции (PACF). Эти графики предоставляют информацию о силе и типе корреляции между данными временного ряда и его запаздывающими значениями. Значительные всплески или пики на графиках можно использовать в качестве начальных оценок соответствующих значений «p» и «q».

Следующим шагом является использование статистических критериев, таких как информационный критерий Акаике (AIC) или байесовский информационный критерий (BIC), для определения наиболее подходящих значений «p» и «q». Эти критерии уравновешивают качество подгонки модели со сложностью модели и обеспечивают количественный способ сравнения различных моделей с разными значениями «p» и «q».

Точность

После подгонки модели ARIMA важно оценить ее точность, чтобы убедиться, что она обеспечивает хорошее соответствие данным временных рядов. Вот несколько распространенных методов проверки точности модели ARIMA:

  1. Остаточный анализ: Остаточные значения представляют собой разницу между фактическими значениями временного ряда и значениями, предсказанными моделью ARIMA. Хорошая модель ARIMA должна иметь остатки, которые обычно распределяются с нулевым средним значением и постоянной дисперсией. Вы можете проверить предположение о нормальности, построив гистограмму остатков и сравнив ее с нормальным распределением. Вы можете проверить предположение о постоянной дисперсии, нанеся остатки во времени и убедившись в отсутствии тенденций или закономерностей.
  2. Средняя абсолютная ошибка в процентах (MAPE): MAPE — это общий показатель для оценки точности прогнозов временных рядов. Он измеряет среднюю абсолютную процентную разницу между прогнозируемыми и фактическими значениями. Более низкий MAPE указывает на более точный прогноз.
  3. Среднеквадратическая ошибка (RMSE): RMSE — еще одна распространенная метрика для оценки точности прогнозов временных рядов. Он измеряет квадратный корень из средней квадратичной разницы между прогнозируемыми и фактическими значениями. Более низкий RMSE указывает на более точный прогноз.
  4. Визуализация прогнозов. Один из способов проверить точность модели ARIMA — визуально сравнить прогнозы модели с фактическими значениями временного ряда. Вы можете построить прогнозные значения модели вместе с фактическими значениями временного ряда и проверить, насколько хорошо они совпадают.
  5. Прогнозирование вне выборки. Наконец, вы можете проверить точность модели ARIMA, используя ее для создания прогнозов вне выборки и сравнения прогнозируемых значений с фактическими значениями. Это включает в себя утаивание части данных временных рядов от процесса подбора модели и их использование для проверки способности модели прогнозировать.