Последовательность имеет значение.

Временной ряд - это последовательность значений, упорядоченная во времени. Мы можем встретить данные временных рядов практически в любой области. Прогнозы погоды, курсы валют, данные о продажах, звуковые волны - вот лишь несколько примеров. Временными рядами могут быть данные любого типа, представленные в виде упорядоченной последовательности.

Например, следующий рисунок представляет собой простой временной ряд, который следует восходящей тенденции:

Это одномерный временной ряд, что означает, что на каждом временном шаге есть одно значение. У нас также есть многомерные временные ряды, которые имеют несколько значений на каждом временном шаге:

Модели во временных рядах

Временные ряды на рисунках, которые мы видели до сих пор, следуют тенденции, что означает общее направление вверх или вниз. Это лишь одна из закономерностей, которые мы можем наблюдать во временных рядах.

Другой распространенный паттерн - сезонность, который указывает на паттерны, повторяющие наблюдаемые или предсказуемые интервалы. Например, данные о продажах розничных магазинов обычно показывают сезонность. Сумма продаж увеличивается и уменьшается в определенное время или в определенные даты. Давайте посмотрим на пример:

Обычно мы сталкиваемся с временными рядами, объединяющими несколько паттернов, таких как тренд и сезонность. Скорее всего, там тоже будет шум:

До сих пор мы видели данные стационарных временных рядов, которые следуют некоторому шаблону. Однако жизнь полна неожиданностей, поэтому вполне вероятно, что некоторые события нарушат шаблон и создадут нестационарные временные ряды. Например, коронавирус - такое большое событие, которое нарушило многие закономерности.

Временные ряды не всегда следуют шаблону или включают сезонность. Некоторые процессы производят просто случайные данные. Такой вид временных рядов называется белым шумом, поэтому делать точные прогнозы практически невозможно.

Приложения анализа временных рядов

Одним из распространенных приложений анализа временных рядов является прогнозирование, что означает прогнозирование закономерностей в будущем на основе значений в прошлом. Для бизнеса очень важно иметь точный прогноз. Например, розничный бизнес может оптимизировать свои запасы, если прогноз спроса точен. Это также увеличивает удовлетворенность клиентов, потому что запросы клиентов будут удовлетворяться без исключений. Возможность заранее планировать - ценный актив.

В прогнозной аналитике мы обучаем модели с известными данными (обучающие данные) и ожидаем, что модель будет предсказывать новые, ранее невидимые данные (тестовые данные). Этот процесс обучения и тестирования известен как контролируемое обучение, потому что мы контролируем модель с помощью известных (помеченных данных). При работе с обычными данными мы можем случайным образом разделить их на обучающие и тестовые подмножества. Однако при работе с временными рядами мы не можем разбить случайным образом. Мы определяем момент времени как точку разделения, чтобы разделить весь набор данных на обучающие и тестовые подмножества. Поскольку данные временных рядов являются последовательными, набор тестов следует за обучающим набором.

Примечание. Если временной ряд имеет сезонность, важно, чтобы и тренировочный, и тестовый наборы содержали целое количество сезонов. Например, на рисунке выше обучающий набор содержит 3 сезона, а тестовый набор содержит 1 сезон. Если мы разделимся в какой-то момент внутри сезона, модель не сможет хорошо уловить тенденции или сезонность.

Иногда нам нужно предсказывать прошлое. Рассмотрим временной ряд от времени t до (t + 400). Анализируя эти данные, мы можем попытаться предсказать ряд от времени (t-40) до (t-1). Это своего рода прогнозирование того, что генерирует данные, которые у нас есть. Иногда в определенные моменты времени отсутствуют данные, и нам также может потребоваться спрогнозировать эти недостающие точки. Этот процесс прогнозирования прошлых данных или отсутствующих точек называется вменением.

Другое приложение - обнаружение аномалий, что означает обнаружение аномальных действий в данных временных рядов. Рассмотрим данные временного ряда посещаемости веб-сайта. Пики нормального тренда могут указывать на злонамеренные атаки. Другой пример - неожиданные пики продаж в розничном магазине, которые могут быть связаны с таким событием, как коронавирус. Обнаружение аномалий - это тип обучения без учителя, при котором модели пытаются найти структуру данных и выявить выбросы.

На следующем рисунке пики показаны как аномалии в данных временных рядов. Помните, что аномалии не всегда легко обнаружить.

Задачи распознавания речи также выполняются с данными временных рядов. Звуковые волны анализируются, чтобы уловить определенные слова, чтобы построить всю речь.

Анализ временных рядов - обширная область в области науки о данных. Для всестороннего понимания анализа временных рядов требуются знания в области машинного обучения, статистики и, конечно же, опыта в предметной области. Мы только что рассмотрели основные концепции, чтобы понять характеристики временных рядов и их приложений. Я планирую продолжить писать об анализе временных рядов, начиная с простых концепций и заканчивая передовыми методами анализа. Следите за новостями в следующих статьях.

Спасибо за чтение. Пожалуйста, дайте мне знать, если у вас есть какие-либо отзывы.