0. Введение

0,1. Что такое данные временных рядов?

Данные временных рядов — это тип данных, которые собираются или записываются через регулярные промежутки времени. Он показывает, как определенная величина или измерение изменяется с течением времени. Эти временные интервалы могут быть очень короткими, например миллисекунды для финансовых данных, или намного более длинными, например, месяцы или годы для климатических данных. Данные временных рядов широко распространены в различных областях, включая финансы, экономику, прогнозирование погоды и многие другие.

0,2. Важность временных рядов

Данные временных рядов — это фундаментальный и важный тип данных в различных областях, особенно в статистике, экономике, финансах, технике и многих других. Вот несколько причин, почему данные временных рядов важны:

  1. Исторический анализ. Данные временных рядов позволяют нам изучать и анализировать прошлые события и тенденции, предоставляя ценную информацию о том, как переменные менялись с течением времени. Этот исторический контекст имеет решающее значение для принятия обоснованных решений и понимания влияния прошлых событий на настоящее и будущее.
  2. Прогнозирование. Анализ временных рядов необходим для прогнозирования будущих значений переменной. Это позволяет нам строить прогнозные модели на основе прошлых данных, помогая в таких областях, как прогнозирование погоды, прогнозирование цен на акции, прогнозирование спроса и многое другое.
  3. Мониторинг и контроль. Многие процессы и системы контролируются и контролируются с использованием данных временных рядов. Например, в производстве датчики собирают данные с течением времени, чтобы гарантировать качество продукции, а в финансах алгоритмы отслеживают торговую деятельность, чтобы обнаружить аномалии и инициировать действия.
  4. Экономический анализ. Экономисты в значительной степени полагаются на данные временных рядов, чтобы понять экономические тенденции, отслеживать инфляцию, измерять экономические показатели и разрабатывать экономическую политику. Валовой внутренний продукт (ВВП), уровень безработицы и индексы инфляции являются классическими примерами данных временных рядов в экономике.
  5. Финансовые рынки. Данные временных рядов лежат в основе финансового анализа. Трейдеры и инвесторы используют исторические данные о ценах и объемах для принятия инвестиционных решений, а финансовые аналитики используют их для оценки эффективности активов и портфелей.
  6. Здравоохранение. В здравоохранении данные временных рядов используются для мониторинга пациентов, отслеживания вспышек заболеваний и медицинских исследований. Непрерывный мониторинг жизненно важных показателей, таких как частота сердечных сокращений и артериальное давление, генерирует данные временных рядов, которые можно использовать для диагностики и лечения.
  7. Экологический мониторинг. Данные временных рядов жизненно важны для отслеживания изменений окружающей среды, включая климатические данные, измерения качества воздуха и воды, а также мониторинг стихийных бедствий, таких как землетрясения и ураганы.
  8. Управление энергопотреблением. Коммунальные предприятия и энергетические компании используют данные временных рядов для мониторинга энергопотребления, управления работой сети и оптимизации производства и распределения энергии.
  9. Трафик и транспорт. Данные временных рядов используются для управления дорожным движением, оптимизации маршрутов и планирования перевозок. Это помогает уменьшить заторы и повысить эффективность транспортных систем.
  10. Маркетинг и продажи. Компании используют данные временных рядов для анализа тенденций продаж, поведения клиентов и эффективности маркетинговых кампаний. Эта информация имеет решающее значение для принятия обоснованных решений в области маркетинга и продаж.
  11. Контроль качества. В производстве данные временных рядов используются для контроля качества и улучшения процессов. Это помогает обнаруживать дефекты, обеспечивать единообразие продукции и сокращать отходы.
  12. Научные исследования. Различные научные дисциплины, включая физику, биологию и астрономию, используют данные временных рядов для изучения природных явлений, проведения экспериментов и открытий.
  13. Управление рисками. Анализ временных рядов является ключевым компонентом управления рисками в таких отраслях, как страхование и финансы. Это помогает в оценке и количественной оценке рисков, связанных с различными факторами.

Таким образом, данные временных рядов важны, поскольку они дают ценную информацию о прошлых, настоящих и будущих тенденциях и поведении различных явлений. Он служит основой для принятия решений, прогнозирования и понимания динамики сложных систем в широком спектре областей.

1. Компоненты временного ряда

Временной ряд обычно состоит из трех основных компонентов:

  1. Тенденция. Долгосрочное движение или направление данных. Он показывает, увеличиваются ли данные в целом, уменьшаются или остаются относительно постоянными с течением времени.
  2. Сезонность. Повторяющиеся закономерности или колебания, которые происходят в данных через регулярные промежутки времени. Эти интервалы могут быть ежедневными, еженедельными, ежемесячными или любыми другими, которые повторяются постоянно.
  3. Остаток (или шум): Случайные изменения или отклонения в данных, которые нельзя объяснить тенденцией или сезонностью. Эти изменения могут быть вызваны различными факторами и часто рассматриваются как шум в данных.

2. Почему важен анализ временных рядов?

Анализ временных рядов имеет решающее значение, поскольку он позволяет нам:

  1. Делать прогнозы. Понимая основные закономерности и тенденции, мы можем прогнозировать будущие значения данных временных рядов. Это особенно ценно в финансах, прогнозах фондового рынка, прогнозировании продаж и т. д.
  2. Обнаружение аномалий. Анализ временных рядов помогает выявить необычные события или выбросы в данных. Например, в сфере кибербезопасности его можно использовать для обнаружения необычных моделей сетевого трафика.
  3. Понимание исторических тенденций. Он дает представление о том, как переменная менялась с течением времени, что важно для принятия обоснованных решений.

3. Методы анализа временных рядов

Для анализа данных временных рядов используются несколько методов и приемов:

3.1. Описательный анализ

Начните с визуализации данных с помощью линейных графиков, гистограмм или гистограмм, чтобы понять их основные характеристики. Давайте посмотрим на пример.

3.1.1. Визуализируйте данные временных рядов

3.1.1.1 Линейный график

  • Применение. Линейные графики отлично подходят для визуализации того, как отдельная переменная (в данном случае цены акций с течением времени) изменяется в непрерывном диапазоне моментов времени.

  • На что обращать внимание. Ищите тенденции (долгосрочные движения), сезонность (повторяющиеся закономерности) и неравномерности (шум) в данных.

3.1.1.2. Гистограмма

  • Применение. Гистограммы обычно используются для сравнения отдельных категорий или значений. При анализе временных рядов вы можете использовать гистограммы для сравнения данных за разные периоды времени или категории.
  • На что обращать внимание. Гистограммы следует использовать, если ваши данные содержат категориальную информацию, относящуюся к периодам времени, или если вы хотите сравнить значения за определенные интервалы времени. Например, если у вас есть ежемесячные данные о продажах, вы можете использовать гистограмму для сравнения продаж за разные месяцы.

В этом примере мы будем использовать гистограмму для сравнения средней цены акций за каждый год в наборе данных. Сначала мы подготовим данные, сгруппировав цены на акции по годам и рассчитав среднюю цену за каждый год; Затем мы создадим гистограмму для визуализации средних цен на акции за каждый год.

Используйте эту диаграмму для сравнения средних цен на акции в разные годы. Вы можете определить тенденции или колебания цен на акции на протяжении многих лет. Обращайте внимание на любые существенные изменения или закономерности в данных. Например, вы можете наблюдать, росли ли цены на акции в целом, снижались или оставались относительно постоянными на протяжении многих лет. Гистограммы полезны для сравнения отдельных категорий (в данном случае лет) и особенно полезны, когда вы хотите визуализировать, как конкретный показатель (средняя цена акций) варьируется в этих категориях (я знаю, поскольку наши данные не являются категориальными, мы могли бы это сделать). это тоже на линейной диаграмме. Просто рассмотрите это как пример). Этот тип анализа может быть полезен для понимания долгосрочных тенденций в данных временных рядов.

3.1.1.3. Гистограмма

Как вы, возможно, знаете, гистограмма — это графическое представление, которое отображает распределение набора данных. Он делит данные на ячейки или интервалы и показывает, сколько точек данных попадает в каждую ячейку.

  • Применение. Гистограммы используются для понимания распределения непрерывной переменной. Они показывают, как данные распределяются по различным диапазонам значений или интервалам.
  • На что обращать внимание. При работе с данными временных рядов гистограммы могут помочь вам оценить распределение значений внутри временного ряда, что может быть полезно для обнаружения выбросов и понимания основных характеристик данных. Вы можете проверить, нормально ли распределены, искажены или имеют ли данные другие закономерности.

Мы можем использовать его, чтобы сделать вывод о:

  • Форма. Форма гистограммы может дать представление о распределении данных. Общие формы включают нормальную (колокольчатую), скошенную (скошенную влево или вправо) и равномерную.
  • Центральная тенденция: Центральная тенденция данных представлена ​​пиком гистограммы, который соответствует наиболее частому значению (режиму).
  • Разброс. Разброс или изменчивость данных можно наблюдать по тому, насколько широко распределены столбцы. Более широкий разброс указывает на большую изменчивость.
  • Выбросы. Выбросы, если они есть, можно рассматривать как точки данных, находящиеся далеко от основной части гистограммы.
  • Бимодальность. В некоторых случаях вы можете наблюдать несколько пиков, что указывает на бимодальное распределение с двумя отдельными группами или режимами в данных.

3.1.2. Сводные статистические данные

Сводная статистика предоставит вам такие показатели, как среднее значение, стандартное отклонение, минимум, максимум и квартили синтетических ежедневных цен на акции.

3.1.3. Сезонное разложение

Сезонная декомпозиция разбивает синтетический временной ряд на четыре компонента: наблюдаемые, трендовые, сезонные и остатки. Наблюдаемый компонент представляет собой исходные данные, тренд показывает долгосрочное движение, сезонный компонент указывает на любые повторяющиеся закономерности, а остатки фиксируют шум или неравномерности в данных.

Аргументы period и model при сезонной декомпозиции имеют решающее значение для точного разложения временного ряда на его трендовые, сезонные и остаточные компоненты. Давайте углубимся в то, что означают эти аргументы и как выбрать оптимальный период в случае необходимости.

  • период. Аргумент period указывает количество периодов времени в сезоне или цикле данных временных рядов. Например, если вы работаете с ежемесячными данными и каждые 12 месяцев наблюдается повторяющаяся закономерность, период обычно устанавливается равным 12. Этот аргумент важен для правильного определения сезонного компонента вашего временного ряда. Если вы хорошо понимаете основную сезонность ваших данных (например, ежедневную, еженедельную, ежемесячную), вы можете указать ее напрямую. Однако, если вы не уверены, возможно, вам придется поэкспериментировать с разными значениями, чтобы найти оптимальный период. Помните, что продолжительность ваших данных должна быть как минимум в два раза больше суммы, установленной вами за период. Мы использовали 252, поскольку в году 252 торговых дня.
  • модель. Аргумент модели определяет тип используемой модели сезонной декомпозиции. Существует две основные модели:
  • Аддитивный. Предполагается, что сезонный компонент добавляется к тренду и остатку. Это целесообразно, когда амплитуда (сила) сезонности не зависит от уровня временного ряда.
  • мультипликативный. Предполагается, что сезонный компонент умножается на тренд и остаток. Это целесообразно, когда амплитуда сезонности зависит от уровня временного ряда. Например, если сезонность становится пропорционально больше по мере увеличения значений временного ряда.

Выбор между аддитивным и мультипликативным зависит от характера ваших данных. Возможно, вам придется поэкспериментировать с обоими, чтобы увидеть, какой из них обеспечивает лучшее разложение.

3.1.3.1 Поиск оптимального периода

Выбор правильного периода может иметь решающее значение для точной сезонной декомпозиции. Вот как можно найти оптимальный период:

  1. Предварительные знания. Если у вас есть предварительные знания о ваших данных и их сезонности, вы можете начать с первоначальной оценки за период. Например, для ежемесячных данных вы можете начать с периода 12 для годовой сезонности.
  2. Визуальный осмотр. Составьте график данных и найдите повторяющиеся закономерности. Если вы наблюдаете четкие сезонные закономерности, подсчитайте количество точек данных в течение одного полного цикла сезона. Это может дать вам разумную оценку на этот период.
  3. Функция автокорреляции (ACF): рассчитайте функцию автокорреляции данных временных рядов. График ACF покажет пики в лагах, соответствующих сезонным периодам. Вы можете использовать эту информацию для оценки периода.
  4. Периодограмма. Рассчитайте периодограмму вашего временного ряда, что поможет определить доминирующие частоты или периоды в данных. Самый высокий пик периодограммы соответствует сезонному периоду.
  5. Экспериментирование. Вы можете попробовать разные значения периода и визуально проверить результаты разложения. Выберите период, который, по вашему мнению, обеспечивает наилучшее разделение тренда, сезонности и остаточных компонентов.

Помните, что поиск оптимального периода может потребовать некоторых проб и ошибок, и часто это сочетание знаний предметной области и методов исследования данных. Цель состоит в том, чтобы точно отразить основную сезонность в данных временных рядов.

Достаточно на сегодня! О других методах, таких как сглаживание, моделирование и прогнозирование, я расскажу в следующей тетради. Пожалуйста, проголосуйте за эту статью и поделитесь ею, если она вам понравилась. Также коды вы можете найти здесь.

Сообщение от InsiderFinance

Спасибо, что являетесь частью нашего сообщества! Перед тем, как ты уйдешь: