В прошлый раз мы изучили три важных примера полупараметрических моделей: процессы IID Noise, White Noise и Random Walk. Теперь мы хотели бы исследовать модели со структурой; т. е. которые построены на предыдущих и имеют определенные особенности. Давайте погрузимся прямо в него.
Модель декомпозиции тренда
Модель трендовой декомпозиции строится следующим образом:
Так что же такое мт? Это обозначает тренд, а Yt обозначает шум. На самом деле мы обычно предполагаем, что это белый шум. Идея состоит в том, что, хотя наблюдения действительно довольно случайны, в среднем они, похоже, следуют какой-то функции или «танцуют вокруг» в зависимости от времени. Мы вернемся к этой идее позже. Но откуда мы знаем, что это за тенденция на самом деле? Ответ: мы можем использовать вычисления и оптимизацию, чтобы найти наиболее вероятную функцию, т.е.
мы минимизируем потерю квадратной ошибки. Мы объясним более подробно, каким должен быть mt, в следующей статье; на данный момент подумайте, что мы могли бы сделать что-то в R, например следующее:
Как Р
В строках 1–3 мы загружаем некоторые необходимые пакеты. Затем в строках 5–7 мы приступаем к оценке трендов, функция forecast::tslm
позволяет подогнать линейные модели к тренду. Мы используем это для оценки как линейного, так и квадратичного тренда. Затем мы просто cbind
(связываем столбец) исходные данные и предполагаемые тренды и передаем их в autoplot
, который выполняет большую часть работы за нас. Функция guides
вместе с функцией scale_color_manual
создают легенду. Именно такой сюжет представлен в начале статьи :)
Сезонная вариация
Рассмотрим сначала данные о продажах противодиабетических препаратов из пакета fpp2
:
Вы можете думать о сезоне как о самых известных временах года, которые мы, вероятно, все знаем: весна, лето, осень и зима. Каждый год они начинаются и заканчиваются примерно в одно и то же время. Конечно, это немного меняется из года в год, но в целом остается более или менее постоянным. Эта идея распространяется и на временные ряды: на графике выше вы можете видеть эти «пики», которые кажутся более или менее равномерно расположенными (вы видите что-нибудь еще на графике?). С математической точки зрения, если Xt — это наш временной ряд,
то есть это повторяется каждые d пробелов во времени.
Итак, как мы выбираем, что должно быть st? Обычный выбор:
Если вы каким-то образом знакомы с волнами и тому подобным, вы можете распознать в этом ряд Фурье. Хотя мы не будем подробно рассматривать ряды Фурье в этих рядах (каламбур не предназначен), важно принять во внимание, что sin и cos являются периодическими функциями, и их комбинации кажутся хорошим выбором для оценки сезонности.
Общая стратегия анализа
- Нарисуйте данные
– Определите потенциальный сигнал (тенденция, сезонность)
–Определите потенциальные модели для Остаточный процесс
–Выявление выбросов - Удалить сигнал
– вычесть тренд и сезонность, чтобы получить процесс с нулевым средним значением. - Модель
– Подберите модель для оценки зависимости - Прогноз
Кроме того, зачем фокусироваться на остатках?
Вы можете задаться вопросом: «Разве вычитание среднего значения и тренда не оставит нас без важной информации?» Ну да! Однако работать с ними намного сложнее. Основная идея: сначала удалите их, выполните некоторое моделирование на основе результата, а затем снова подключите оценки в конце. Удивительно, но зачастую это так же эффективно, как и более сложные методы, работающие только с необработанными данными. Даже они дают лучшие результаты при использовании методов, описанных выше!
В следующий раз
В следующих статьях мы более подробно рассмотрим понятие стационарность, проиллюстрировав это возвращением к процессам IID Noise, White Noise и Random Walk. Быть в курсе!
Предыдущая статья
Главная страница
Следуй за мной в
- https://blog.jairparraml.com/
- https://www.linkedin.com/in/hair-parra-526ba19b/
- https://github.com/JairParra
- https://medium.com/@hair.parra