Акции - это не что иное, как временные ряды.

Вот почему в первых частях своих статей я в первую очередь сосредоточусь на понимании временных рядов.

Прогнозирование временных рядов - важная область машинного обучения, которой часто пренебрегают. Это важно, потому что существует очень много проблем прогнозирования, связанных с временной составляющей. Этими проблемами пренебрегают, потому что именно этот временной компонент затрудняет решение проблем временных рядов.

Временные ряды и обычный набор данных машинного обучения

Обычный набор данных машинного обучения - это набор наблюдений. Например:

наблюдение # 1 наблюдение # 2

наблюдение # 3

Прогнозы делаются для новых данных, когда фактический результат может быть неизвестен до некоторой даты в будущем. Будущее предсказывается, но все предыдущие наблюдения рассматриваются одинаково. Возможно, с некоторой очень незначительной временной динамикой, чтобы преодолеть идею дрейфа концепций, например, используя только последний год наблюдений, а не все доступные данные.

Набор данных временных рядов отличается. Временные ряды добавляют явную зависимость порядка между наблюдениями: измерение времени. Это дополнительное измерение является одновременно ограничением и структурой, которая предоставляет источник дополнительной информации.

Временной ряд - это последовательность наблюдений, сделанных последовательно во времени.

Время №1, время наблюдения Время №2, наблюдение

Время # 3, наблюдение

Номенклатура временных рядов

очень важно быстро установить стандартные термины, используемые при описании данных временных рядов. Текущее время определяется как t, наблюдение в настоящее время определяется как obs (t).

Нас часто интересуют наблюдения, сделанные в предыдущие периоды, которые называются временами запаздывания или запаздываниями.

Времена в прошлом отрицательны по отношению к текущему времени. Например, предыдущее время - t-1, а предшествующее - t-2. Наблюдения в это время являются набл. (T-1) и наб. (T-2) соответственно.

Обобщить:

  • t-n: предыдущее время или время запаздывания (например, t-1 для предыдущего времени).
  • t: текущее время и точка отсчета.
  • t + n: будущее или время прогноза (например, t + 1 в следующий раз).

Анализ временных рядов против прогнозирования временных рядов

У нас разные цели в зависимости от того, заинтересованы ли мы в понимании набора данных или в составлении прогнозов. Понимание набора данных, называемого анализом временных рядов, может помочь делать более точные прогнозы, но не является обязательным и может привести к большим техническим затратам времени и знаний, напрямую не связанных с желаемым результатом, который позволяет прогнозировать будущее.

Анализ временных рядов

При использовании классической статистики основной задачей является анализ временных рядов. Анализ временных рядов включает в себя разработку моделей, которые лучше всего фиксируют или описывают наблюдаемые временные ряды, чтобы понять основные причины. Эта область исследования ищет причины, стоящие за набором данных временных рядов. Это часто включает предположения о форме данных и разложение временных рядов на составляющие компоненты. Качество описательной модели определяется тем, насколько хорошо она описывает все доступные данные и интерпретацию, которую она предоставляет для лучшего информирования предметной области.

Основная цель анализа временных рядов - разработать математические модели, обеспечивающие правдоподобное описание на основе выборочных данных.

Прогнозирование временных рядов

Прогнозирование будущего называется экстраполяцией в классической статистической обработке данных временных рядов. Более современные области сосредоточены на этой теме и называют ее прогнозированием временных рядов.

Прогнозирование предполагает использование моделей на основе исторических данных для прогнозирования будущих наблюдений. Описательные модели могут заимствовать из будущего (т. Е. Сглаживать или удалять шум), они только стремятся наилучшим образом описать данные. Важное различие в прогнозировании состоит в том, что будущее полностью недоступно, и его следует оценивать только исходя из того, что уже произошло.

Качество модели прогнозирования временных рядов определяется ее эффективностью при прогнозировании будущего. Это часто происходит за счет возможности объяснить, почему был сделан конкретный прогноз, доверительных интервалов и даже лучшего понимания основных причин проблемы.

Компоненты временных рядов

Анализ временных рядов предоставляет набор методов для лучшего понимания набора данных. Возможно, наиболее полезным из них является разложение временного ряда на 4 составные части:

  • Уровень. Базовое значение для ряда, если это прямая линия.
  • Тренд. Необязательное и часто линейное возрастание или убывание ряда во времени.
  • Сезонность. Необязательные повторяющиеся шаблоны или циклы поведения во времени.
  • Шум. Необязательная изменчивость наблюдений, которую нельзя объяснить с помощью модели.

Постоянные ряды имеют уровень, большинство из них содержат шум, а тренд и сезонность являются необязательными.

Проблемы прогнозирования временных рядов

При прогнозировании важно понимать свою цель. Используйте метод Сократа и задавайте множество вопросов, чтобы лучше понять особенности вашей задачи прогнозного моделирования. Например:

Сколько данных у вас есть и можете ли вы собрать их все вместе?

  1. Как и во всех моделях машинного обучения, больше данных часто бывает более полезным, предлагая больше возможностей для исследовательского анализа данных, тестирования и настройки моделей, а также для обеспечения точности модели.
  2. Какой временной горизонт требуется для прогнозов? Краткосрочная, среднесрочная или долгосрочная перспектива? Более короткие временные горизонты часто легче предсказать с большей уверенностью.
  3. Могут ли прогнозы часто обновляться с течением времени или они должны быть сделаны один раз и оставаться неизменными? Обновление прогнозов по мере поступления новой информации часто приводит к более точным прогнозам.
  4. С какой временной периодичностью требуются прогнозы? Часто прогнозы можно делать с более низкой или более высокой частотой, что позволяет использовать понижающую и повышающую дискретизацию данных, что, в свою очередь, может дать преимущества при моделировании.

Данные временных рядов часто требуют очистки, масштабирования и даже преобразования. Например:

  • Частота. Возможно, данные предоставляются с частотой, слишком высокой для моделирования или неравномерно распределены во времени, что требует повторной выборки для использования в некоторых моделях.
  • Выбросы. Возможно, существуют искаженные или резко выпадающие значения, которые необходимо выявить и обработать.
  • Отсутствует. Возможно, есть пробелы или недостающие данные, которые необходимо интерполировать или условно исчислить.

Часто задачи временных рядов решаются в реальном времени, постоянно предоставляя новые возможности для прогнозирования. Это добавляет честности к прогнозированию временных рядов, которое быстро исключает неверные предположения, ошибки в моделировании и все другие способы, которыми мы можем себя обмануть.

Примеры прогнозирования временных рядов

  • Прогнозирование урожайности таких товаров, как кукуруза, пшеница и т. Д., В тоннах по штату каждый год.
  • Прогнозирование того, указывает ли запись ЭЭГ в секундах на то, что у пациента эпилептический припадок.
  • Прогнозирование цены закрытия акций каждый день.
  • Ежегодный прогноз рождаемости во всех больницах города.
  • Прогнозирование продаж продукта в единицах, проданных каждый день для магазина.
  • Прогнозирование количества пассажиров на вокзале каждый день.
  • Ежеквартальный прогноз безработицы для штата.
  • Прогнозирование нагрузки на сервер каждый час.
  • Прогнозирование численности кролиководства в штате на каждый сезон размножения.
  • Прогнозирование средней цены на бензин в городе на каждый день.

Первоначально опубликовано на сайте datasciencetips.com 4 декабря 2018 г.