С начала Третьей промышленной революции в 1969 году мировое потребление энергии росло в геометрической прогрессии. Сегодня, когда мир вступает в новую фазу промышленной революции (Индустрия 4.0 — Промышленный Интернет вещей), потребность в энергии постоянно растет. Очевидно, что энергия является ключевой опорой человеческого благополучия, экономического развития и борьбы с бедностью. Поэтому важно обеспечить, чтобы наши будущие поколения имели достаточный доступ к этому ресурсу.

Согласно историческим данным, около 75% наших источников энергии поступают из невозобновляемых ресурсов. Вдобавок ко всему, в нашей нынешней энергетической системе преобладают ископаемые виды топлива (уголь, нефть и природный газ), которые являются конечным ресурсом, который иссякнет в течение времени. Чтобы удовлетворить растущий спрос на потребление энергии, обеспечив при этом выделение достаточных ресурсов для будущих поколений, необходимо оптимизировать операции и повысить энергоэффективность.

Первый шаг в повышении эффективности использования энергии — отслеживать потребление энергии с течением времени. Мы можем сделать еще один шаг вперед, прогнозируя наши потребности в энергии в будущем. Используя эти знания, мы можем лучше формировать пути к более разумному и устойчивому будущему.

Цель:

Основная цель этого проекта — спрогнозировать энергопотребление одного здания в течение следующих 24 часов с использованием предоставленного набора данных.

Исходные данные предоставлены Schneider Electric, которые включают энергопотребление здания под названием Building-126, данные с 15-минутными интервалами, и значения температуры в четырех точках, близких к зданию, в различные промежутки времени.

· 15-минутное энергопотребление одного здания с 24 июля 2014 г. по 26 мая 2016 г.

· Значения температуры в четырех местах рядом со зданием (WX1, WX2, WX3, WX4)

Анализ данных:

Судя по трендам сезонных температур, делаем вывод, что работаем со зданием, расположенным в северном полушарии. Температура самая низкая в конце и начале года, а пик приходится на середину, что говорит о том, что регион, в котором расположено это здание, имеет четкие сезонные закономерности: зима с ноября по январь и лето с мая по июль.

Данные об энергопотреблении показывают четкие еженедельные тенденции. Мы наблюдаем, что потребление энергии высокое в рабочее время в будние дни и низкое в выходные дни. Падение в середине дня в полдень соответствует обеденному времени. Мы делаем вывод, что это офисное здание где-то в северном полушарии.

Подготовка данных

Поскольку температурные данные wx1–4 записываются в различные интервалы с некоторыми отсутствующими данными внутри, первым шагом, который мы предприняли, было сопоставление данных с 15-минутными временными интервалами с использованием данных о потреблении энергии в качестве драйвера.

Затем мы объединили данные из wx1, wx2 и wx3, взяв среднее значение между значениями этих трех местоположений. Это уменьшит любую случайную ошибку, которая может существовать в измерениях. Отбрасываем wx4 так как данных в нем очень мало.

Проанализировав набор данных о потреблении энергии, мы заметили, что по крайней мере 16% данных отсутствуют. Отсутствующие данные начинаются с 3-й недели и далее, а самая продолжительная продолжительность отсутствия данных составляет 3 дня подряд.

Мы построили графики ACF и PACF данных о потреблении, чтобы увидеть корреляцию в данных. В ACF есть пики около Т-96, Т-192 и далее в интервалах 96 точек данных. Это указывает на то, что данные имеют корреляцию с предыдущими данными с шагом в 96 точек данных, что соответствует 24-часовому отставанию.

Высокий пик около T-670 на графике ACF и точка при T-670 на графике PACF указывают на высокую корреляцию во временных рядах с отставанием в 7 дней.

Поскольку разрыв отсутствующих данных относительно велик, простое выполнение линейной интерполяции не даст реалистичного представления набора данных, который у нас есть. Поскольку мы знаем о высокой корреляции дней T0 и T-7, более элегантным подходом является использование существующих частей набора данных за предыдущую неделю и их репликация по отсутствующим данным.

Например, отсутствующие данные за среду и четверг второй недели можно заменить данными за первую неделю. Это обеспечивает более плавный поток нашего энергопотребления, что будет способствовать более точному прогнозу.

Чтобы учесть меньшее потребление энергии в праздничные и выходные дни, а также в нерабочее время, мы добавили в данные еще три столбца — «День недели», «Время» и «Праздники». В разделе «День недели» числа 0–6 использовались для обозначения воскресенья и субботы. Под временем мы добавили числа от 1 до 24, чтобы обозначить час дня. В разделе «Праздники» 1 используется для обозначения государственных праздников, а 0 — для обозначения всех остальных дней.

Тенденции и закономерности

Изучив данные о потреблении по всему набору данных, мы заметили, что потребление энергии в 2014 году ниже по сравнению с последующими годами. Поскольку мы пытаемся предсказать будущие данные, данные за 2015 и 2016 годы более актуальны, и мы можем получить лучшие результаты, убрав эту аномалию. Поэтому мы решили удалить все данные до 1 января 2015 года.

Затем мы пытаемся определить любую связь между температурой и потреблением энергии, строя оба графика вместе.

Визуально существует почти обратная зависимость между потреблением энергии и температурой, которую можно объяснить. Обогреватели широко используются зимой для повышения температуры, тогда как кондиционеры используются летом для понижения температуры. И кондиционеры, и обогреватели являются наиболее потребляющими электроэнергию приборами, что является причиной высокой корреляции между температурой и электричеством.

Разработка функций

Сначала мы определяем наши постоянные потери (0,3787425726049333), которые затем будут использоваться в качестве ориентира для нашей модели производительности. Мы также нормализовали энергопотребление и температуру, чтобы привести значения в наборе данных к общему масштабу, сохранив при этом функции в наборе данных. Поскольку день недели, время и праздник считаются категориальными данными, мы не нормализуем их.

Поскольку целью этого проекта является изучение возможности использования хорошего прогноза температуры для прогнозирования энергопотребления здания, мы используем значение температуры T + 24 часа в качестве нашего первого входа. Этот ввод дает ожидаемую температуру времени нашего прогноза. Кроме того, в качестве 2-го, 3-го и 4-го входных данных используются значения дня недели, времени и праздников T+24hr. Эти будущие значения можно использовать, поскольку они известны заранее.

B:96 \ Функция 3: прогноз температуры
C:96 \ Функция 4: День недели
D:96 \ Функция 5: Время
E:96 \ Функция 6: Праздник

Зная высокую корреляцию с разрывом в 7 дней, мы разрабатываем следующий набор функций с учетом этих свойств. Мы берем разницу между потреблением в одно и то же время и день T0 и T+24 часа в предыдущие недели, что дает сети представление о том, каким может быть значение разницы T0 и T+24 часа.

A:-576:-672 96 различий
A:-1248:-1344 96 различий
A:-1920:-2016 96 различий
A:-2592:-2688 96 различий

Затем мы используем Силу и Импульс, чтобы уменьшить отставание прогноза. Сила и импульс дают дифференциал данных первого и второго порядка, который сообщает сети, как перемещаются данные.

A:0:-12 1 разность { xs }
xs \ Исходные разности (XS)
xs 1 импульс \ разности 1-го порядка XS
xs 1 сила \ разности 2-го порядка XS

Наконец, путем проб и ошибок мы добавили еще несколько входных данных, которые помогли снизить потери при тестировании прогноза.

A:0:-4 СРЕДНЕЕ \ признак 1
A:0:-4 SD \ признак 2
A:0:-4 МАКС \ признак 3
A:0:-4 КУРТОСИС \ характеристика 4
A:0:-4 ПЕРЕКОС \ характеристика 5
A:0:-4 MIN \ характеристика 6

Обучение модели

Поэкспериментировав с самыми разными конфигурациями, мы остановились на нейронной сети размера nn 64, без регуляризации и отсева. В них не было необходимости, поскольку потеря при обучении и тестировании была очень близкой, без признаков переобучения.

После некоторых экспериментов мы обнаружили, что сеть с 4 слоями лучше всего подходит для нашей модели. Если сеть слишком мелкая, обучающая модель не подходит, а если сеть слишком глубокая, модель скорее запоминает обучающие выборки, чем обобщает хороший прогноз.

Мы запустили установку с 50 повторами, чтобы обеспечить воспроизводимость результатов.

Результат

Мы восполнили недостающие данные без утечки данных, сохранив при этом его функции. Имея более чистый набор данных для работы, мы смогли получить хороший прогноз, при этом как потери при обучении, так и при тестировании снижались одновременно по мере обучения. Наша последняя потеря при тестировании достигла значения 0,232 (превзойденная настойчивость с большим отрывом в 38,8%) и снизила пиковые значения задержки как при тестировании, так и при обучении до 0.

И последнее, но не менее важное: наша диаграмма рассеяния оказалась намного более узкой по сравнению с более ранним тестовым проигрышем, что указывает на более высокую точность прогноза.

Ограничения

Существует небольшой разрыв между нашими потерями при обучении и тестировании, что означает небольшое переоснащение (высокое смещение). Помимо температуры, на энергопотребление влияет множество факторов, таких как бизнес-цикл, правительственные постановления и т. д. Мы можем уменьшить переобучение, вводя дополнительные функции, настраивая существующие функции и регуляризируя их. Другая возможность, вызывающая разрыв, связана с шумом. Набор данных содержит потребление энергии с интервалами в 15 минут, если бы мы увеличили временной интервал, например, до интервалов в 1 час, набор данных будет менее зашумлен, и это также может уменьшить разрыв между потерями обучения и тестирования.

Кроме того, наша модель не способна предсказывать экстремальные явления, такие как эпидемии. Например, если активируется блокировка, как в начале этого года во время вспышки Covid19, энергопотребление здания резко снизится, и это не будет отражено в нашей модели. Наша модель предназначена для прогнозирования событий при нормальных обстоятельствах.

Заключение

Практика искусственного интеллекта (ИИ) за последние несколько десятилетий пережила множество зим, которые большую часть времени можно частично понять как последовательность завышенных ожиданий и последующий крах. Однако в современном обществе наблюдается рост использования и спроса на ИИ, от устройств распознавания лиц до беспилотных транспортных средств. Бесконечные возможности для совершенствования ИИ доказывают, что мы едва касаемся поверхности его истинных возможностей, с бесконечными и запредельными возможностями, ограниченными только нашим воображением.

Хотя созданный нами прогноз относится только к конкретному зданию, он вполне применим к большинству стандартных офисных зданий в северном полушарии при нормальных обстоятельствах. Мы надеемся, что этот небольшой проект создаст эффект домино для более крупных проектов, способных прогнозировать потребности в энергии различных городов и, исходя из этого, строить более разумное и устойчивое будущее для следующих поколений.

Сценарий: Ли Ю Рен, Ко Ю Зе, Лукас Тэй

Team JudoKazuaCake для AI4IMPACT Datathon 2020