В прошлый раз мы изучили три важных примера полупараметрических моделей: процессы IID Noise, White Noise и Random Walk. Теперь мы хотели бы исследовать модели со структурой; т. е. которые построены на предыдущих и имеют определенные особенности. Давайте погрузимся прямо в него.

Модель декомпозиции тренда

Модель трендовой декомпозиции строится следующим образом:

Так что же такое мт? Это обозначает тренд, а Yt обозначает шум. На самом деле мы обычно предполагаем, что это белый шум. Идея состоит в том, что, хотя наблюдения действительно довольно случайны, в среднем они, похоже, следуют какой-то функции или «танцуют вокруг» в зависимости от времени. Мы вернемся к этой идее позже. Но откуда мы знаем, что это за тенденция на самом деле? Ответ: мы можем использовать вычисления и оптимизацию, чтобы найти наиболее вероятную функцию, т.е.

мы минимизируем потерю квадратной ошибки. Мы объясним более подробно, каким должен быть mt, в следующей статье; на данный момент подумайте, что мы могли бы сделать что-то в R, например следующее:

Как Р

В строках 1–3 мы загружаем некоторые необходимые пакеты. Затем в строках 5–7 мы приступаем к оценке трендов, функция forecast::tslm позволяет подогнать линейные модели к тренду. Мы используем это для оценки как линейного, так и квадратичного тренда. Затем мы просто cbind (связываем столбец) исходные данные и предполагаемые тренды и передаем их в autoplot , который выполняет большую часть работы за нас. Функция guides вместе с функцией scale_color_manual создают легенду. Именно такой сюжет представлен в начале статьи :)

Сезонная вариация

Рассмотрим сначала данные о продажах противодиабетических препаратов из пакета fpp2 :

Вы можете думать о сезоне как о самых известных временах года, которые мы, вероятно, все знаем: весна, лето, осень и зима. Каждый год они начинаются и заканчиваются примерно в одно и то же время. Конечно, это немного меняется из года в год, но в целом остается более или менее постоянным. Эта идея распространяется и на временные ряды: на графике выше вы можете видеть эти «пики», которые кажутся более или менее равномерно расположенными (вы видите что-нибудь еще на графике?). С математической точки зрения, если Xt — это наш временной ряд,

то есть это повторяется каждые d пробелов во времени.

Итак, как мы выбираем, что должно быть st? Обычный выбор:

Если вы каким-то образом знакомы с волнами и тому подобным, вы можете распознать в этом ряд Фурье. Хотя мы не будем подробно рассматривать ряды Фурье в этих рядах (каламбур не предназначен), важно принять во внимание, что sin и cos являются периодическими функциями, и их комбинации кажутся хорошим выбором для оценки сезонности.

Общая стратегия анализа

  1. Нарисуйте данные
    – Определите потенциальный сигнал (тенденция, сезонность)
    Определите потенциальные модели для Остаточный процесс
     –
    Выявление выбросов
  2. Удалить сигнал
     – вычесть тренд и сезонность, чтобы получить процесс с нулевым средним значением.
  3. Модель
     – Подберите модель для оценки зависимости
  4. Прогноз

Кроме того, зачем фокусироваться на остатках?

Вы можете задаться вопросом: «Разве вычитание среднего значения и тренда не оставит нас без важной информации?» Ну да! Однако работать с ними намного сложнее. Основная идея: сначала удалите их, выполните некоторое моделирование на основе результата, а затем снова подключите оценки в конце. Удивительно, но зачастую это так же эффективно, как и более сложные методы, работающие только с необработанными данными. Даже они дают лучшие результаты при использовании методов, описанных выше!

В следующий раз

В следующих статьях мы более подробно рассмотрим понятие стационарность, проиллюстрировав это возвращением к процессам IID Noise, White Noise и Random Walk. Быть в курсе!

Предыдущая статья



Главная страница



Следуй за мной в

  1. https://blog.jairparraml.com/
  2. https://www.linkedin.com/in/hair-parra-526ba19b/
  3. https://github.com/JairParra
  4. https://medium.com/@hair.parra

Свяжитесь со мной в LinkedIn