Демонстрация возможностей моделей глубокого обучения, используемых во временных рядах, по сравнению с предыдущими моделями машинного обучения.

Прогнозирование временных рядов может происходить, когда научные прогнозы основаны на исторических данных с отметками времени. Это включает в себя построение моделей посредством исторического анализа и их использование для наблюдений и принятия будущих стратегических решений.

Мы живем в эпоху, когда сохранение энергии и использование возобновляемых источников энергии является актуальной проблемой, решаемой во всем мире. Мероприятия по энергосбережению в жилых домохозяйствах могут кардинально изменить качество окружающей среды, а также привести к большей экономии для потребителей. Большинство пользователей могут собирать данные об энергопотреблении от своих поставщиков за прошлые периоды, но лишь некоторые из них могут делать прогнозы на основе своих потребностей в потреблении. Многие руководящие органы, такие как Коалиция Климата и Чистого Воздуха (CCAC), стремятся защитить климат и улучшить качество воздуха, бытовая энергетика является одним из ее направлений. Использование нейронных сетей для прогнозирования потребления электроэнергии может изменить наши привычки.

Введение

Содержание: Будет изучена первая модель прогнозирования, экспоненциальное сглаживание, целью которой является моделирование детерминированной части ряда. Модели ARIMA позволят пойти дальше, моделируя также стохастические компоненты ряда. Наконец, будут изучены некоторые более продвинутые модели: нейронные сети, модели динамической регрессии и модели для сгруппированных временных рядов.

Из-за количества компонентов в этой статье она будет разделена на 2 части: первая часть будет посвящена прогнозированию потребления электроэнергии во времени, а вторая часть будет использовать температуру наружного воздуха в качестве дополнительной переменной для прогнозирования потребления электроэнергии.

Тема и набор данных

Набор данных состоит из 3 столбцов: отметка времени, мощность (кВт) и температура наружного воздуха (в градусах Цельсия) из типичного бытового потребления в течение зимнего сезона в Европе. Длина метки времени составляет 4604 строки с 1 января 2022 года по 16 февраля. Каждая метка времени измеряется каждые 15 минут, начиная с 1:15 до 23:45. Целью в данном случае является прогноз потребления электроэнергии на 17 февраля 2022 года с учетом и без учета температуры наружного воздуха (в качестве фактора). Большая часть работы выполняется с помощью R/Python (формат блокнота Jupyter).

Очистка данных

Поскольку наблюдения проводятся каждые 15 минут, я пересчитываю это в час (60/15 = 4), чтобы получить почасовую частоту, что позволяет лучше визуализировать графики.

Методы

Создайте два набора данных: набор данных для обучения (80%) и набор тестовых данных (20%), чтобы выполнить правильный прогноз временных рядов для правильной оценки модели. Поскольку использование нового набора данных будет означать 900 строк как Поезд и 227 рядов, оставшихся в качестве теста.

Тестирование на разных моделях

Начните прогнозирование с помощью Простого экспоненциального сглаживания (SES) без параметра сглаживания в альфа-канале (Экспоненциальное сглаживание — это метод прогнозирования временных рядов для одномерных данных). SES — это простая модель, которая не имеет отношения к сезонности. Среднеквадратическая ошибка (RMSE) будет использоваться в качестве показателя для оценки производительности временного ряда.

RMSE для этой модели составляет 60,764. Несмотря на то, что RMSE низкий, в данном случае SES является плохим инструментом прогнозирования, как видно визуально. Поэтому я перехожу к более сложным моделям с большим количеством параметров.

Холт-Уинтерс

Например, использование Модели Холта-Уинтерса. В этом конкретном случае аддитивный сезонный HW, аддитивный сезонный HW с демпфированием и преобразование Бокса-Кокса (это может быть эффективным) в сезонный HW с аддитивным демпфированием.

RMSE для каждой модели, аддитивной сезонной HW (73,46), демпфированной аддитивной сезонной HW (60,91) и демпфированной аддитивной сезонной модели с Box-Cox (60,84). Нет большой разницы в сравнении ошибок RMSE для всех различных типов моделей Холта-Винтерса. Как видно, ошибки как Damped HW, так и Damped HW с Box-Cox остаются такими же, как и при экспоненциальном сглаживании. Кроме того, аддитивная сезонная ошибка HW работает хуже, это может быть связано с тем, что они являются линейными моделями. Еще одна вещь, которую следует отметить, как видно из Box-Cox, лямбда устанавливается автоматически, а не выбирается, что может быть причиной плохой работы.

АРИМА

Я приступаю к прогнозированию с помощью Модели ARIMA, чтобы увидеть, есть ли разница с предыдущими моделями.

Визуально ARIMA предсказывает тестовый набор лучше, чем наблюдаемые предыдущие модели. При проверке с ошибкой RMSE (56,39), хотя она и ниже, чем в предыдущих моделях, она по-прежнему не дает хороших прогнозов, поскольку модель способна прогнозировать с очень небольшой значимостью, затем она сходится к нулю, поскольку ARIMA обычно используется в стационарный набор данных. Расширенный тест Дикера-Фуллера может доказать, что этот набор данных действительно является стационарным, поскольку значение P меньше 0,05. Отклонить нулевую гипотезу, другими словами, он имеет некоторую структуру, зависящую от времени, и не имеет постоянной дисперсии. время

Графики корреляции

Чтобы продолжить, можно использовать тест корреляции для выявления закономерностей с использованием графика автокорреляции и графика частичной автокорреляции.

Теоретически автокорреляция — это корреляция между двумя значениями во временном ряду, лаги представляют моменты времени в наборе данных. Как видно, задержки находятся за пределами доверительного интервала 95%, что может означать, что задержки могут коррелировать между собой. Автокорреляционная функция быстро снижается почти до нуля, это свойство нестационарности повлияет на эффективность нескольких моделей прогнозирования. В данном случае ACF и PACF доказывают это. Также может быть вероятность, что эти данные являются циклическими, а не сезонными, если это так, они не могут быть смоделированы линейной моделью.

Нейронная сеть с авторегрессией

Наконец, можно использовать нейронную сеть, чтобы делать более точные прогнозы (NN имеет возможность изучать сложные сопоставления от входных данных к выходным) набора тестовых данных. В этой модели параметры p и k автоматически выбираются алгоритмом. НС состоит из 20 сетей с сетевым составом 35–18–1 и 667 весами.

Визуально эта модель, вероятно, является лучшей моделью по сравнению с предыдущими моделями для прогнозирования. Вычисление среднеквадратичной ошибки дает самый высокий уровень ошибок (80,05) по сравнению с предыдущими моделями. Это приемлемо, так как делает более точный прогноз.

Добавление преобразования Бокса-Кокса к набору данных, которое ранее использовалось в предыдущих моделях, может стабилизировать дисперсию в NN.

RMSE в этом случае ниже (70,82), и, как видно визуально, это гораздо лучшая модель для прогнозирования потребления электроэнергии по сравнению со всеми предыдущими моделями.

Для лучшего наблюдения за прогнозами нейронной сети здесь прогнозируется NN по тестовому набору данных. Он не особенно хорош в моделировании, но он гораздо более доминирующий по сравнению с предыдущими моделями.

Наконец, мы используем эту нейронную сеть, чтобы делать прогнозы на будущее. 96 наблюдений, чтобы представить 24 часа как целые сутки. Прогнозы сделаны для прогноза потребления на следующий день на 17.02.2022.

Часть 2

В следующей статье, которая выйдет в ближайшие недели, будет рассмотрена добавленная переменная температуры наружного воздуха и использование нейронной сети с динамической регрессией.

Следите за обновлениями :)