Существует множество задач прогнозирования, которые включают временной компонент, такой как прогнозирование некоторой урожайности каждый год, прогнозирование определенной цены каждый день, прогнозирование определенной ставки каждый час и т. Д., Что затрудняет решение проблем. В этом блоге будут представлены методы машинного обучения, позволяющие лучше анализировать и прогнозировать временные ряды.

Временная последовательность

Временной ряд можно разложить на четыре составляющих компонента: уровень (базовое значение), тренд (линейное поведение), сезонность (периодическое поведение) и шум. В зависимости от количества наблюдений, записываемых каждый раз, набор данных можно пометить как одномерный временной ряд и многомерный временной ряд. В этом блоге мы сосредоточимся на одномерных временных рядах, которые наиболее просты для понимания и работы.

Мы можем реструктурировать набор данных временных рядов как задачу контролируемого обучения, используя значение на предыдущем временном шаге для прогнозирования значения на следующем временном шаге, что называется методом скользящего окна или методом запаздывания. Количество предыдущих временных шагов называется шириной окна или размером задержки. Согласно количеству прогнозируемых временных шагов, есть одношаговый прогноз и многоэтапный прогноз.

ARIMA

Модель ARIMA (Autoregressive Integrated Moving Average) - популярный и широко используемый статистический метод для анализа и прогнозирования временных рядов. ARIMA объединяет три части: AR, Differencing (I) и MA. Модель AR (авторегрессия) - это когда значение из временного ряда регрессирует по предыдущим значениям из того же временного ряда. Модель MA (скользящего среднего) может быть описана как взвешенная сумма шума наблюдения и запаздывающих наблюдений. Значение разницы равно текущему значению за вычетом значения следующего лага. Временной ряд, который необходимо различить, чтобы сделать его стационарным, называется интегрированным (I) временным рядом. ARIMA имеет три основных параметра: p обозначает количество членов AR или порядок модели AR, d обозначает количество раз, когда данные различаются, а q обозначает количество членов MA или порядок модели MA. ARIMA может быть расширен с учетом сезонности и внешних переменных, что называется моделью SARIMAX.

Графики ACF (функция автокорреляции) и PACF (функция частичной автокорреляции) могут дать интуитивное понимание AR (p) и MA (q). График ACF для временного ряда AR (p) является сильным до запаздывания p и остается неизменным для последующих значений запаздывания, прекращаясь в какой-то момент по мере ослабления эффекта. PACF описывает прямую связь между наблюдением и его запаздыванием без корреляции для значений запаздывания, превышающих p. ACF для процесса MA (q) показывает сильную корреляцию с недавними значениями вплоть до запаздывания q, а затем немедленное снижение до минимальной корреляции или ее отсутствие. Для PACF график показывает сильную связь с запаздыванием, а затем спад до отсутствия корреляции с запаздыванием и далее.

Модель ARIMA хорошо изучена и эффективна для решения многих задач. Однако, как линейный метод, он страдает некоторыми ограничениями, такими как нелинейность, многомерные входные данные, многошаговые прогнозы и т. Д. Поэтому для решения этих проблем были разработаны усовершенствованные методы прогнозирования временных рядов.