Авторы: Нил Нарнавар, Рохит Редди Ваджрала, А. Мина Приядхаршини, С. Прабакаран

Аннотация. Точное прогнозирование солнечной энергии, вырабатываемой фотогальваническими панелями, является одной из основных задач, поскольку количество панелей, необходимых для выработки достаточного количества энергии, зависит от погодных условий. Существуют различные факторы, влияющие на энергию, вырабатываемую солнечной панелью. Анализ данных и построение точной модели, которая не сильно зависит от данных о погоде, может быть очень полезным для оценки приблизительного количества энергии, вырабатываемой по всему миру. Использование солнечной энергии является серьезной проблемой, с которой сталкиваются многие города в течение года, и, следовательно, управление электроэнергией в течение года в разные сезоны становится более сложным. Это из-за смешанных ресурсов в сезоны. Задача синхронизации использования солнечной энергии со статистикой, т. е. выработка электроэнергии, является сложной, поскольку она неконтролируема и прерывиста. Чтобы решить эту проблему, создайте и проанализируйте различные модели прогнозирования производства солнечной энергии для конкретных объектов со ссылкой на отчет о погоде, полученный из [1] AMS 2013–2014 Prediction Contest, Kaggle, с использованием машинного обучения. Следовательно, была проведена оценка этих моделей и анализ модели генерации с использованием различных методов регрессии и нейронной сети.

1.ВВЕДЕНИЕ

Основной целью в отношении солнечной энергии является существенное увеличение проникновения возобновляемых ресурсов. Возможность точно прогнозировать солнечную энергию, попадающую на фотоэлектрические панели, является ключевой задачей для интеграции все большего количества возобновляемых источников энергии, поскольку общая выработка электроэнергии должна соответствовать мгновенной потребляемой нагрузке. Солнечная энергия колеблется в зависимости от различных других факторов, присутствующих в атмосфере, и все же она предсказуема. На рис. 1 представлено распределение сайтов GEFS, с которых извлекаются данные для дальнейшего анализа.

1.1 Получение набора данных

Для этой работы набор данных с количеством записей 2 миллиона значений был взят из [1] набора данных конкурса kaggle. Все эти значения относятся к факторам, влияющим на солнечную энергию. Данные о погоде в виде значений 29 погодных параметров (таких как осадки, максимальная температура, атмосферное давление, нисходящий/восходящий коротковолновый радиоактивный поток и т. д.), прогнозируемых в 3 разных часа дня и предоставляемых 5 различными моделями прогноза ансамблей. сгруппированы по сезонам. Следовательно, прогнозы погоды применялись на 98 сайтах Mesonet, а также тестировались различные методологии прогнозирования на этих сайтах.

1.2 Функции определения местоположения

Принимается во внимание сайт штата Оклахома. Значения собирались каждый день с 1994 по 2007 год (5113 дней) для обучающего набора данных и с 2008 по 2012 год (1400 дней) для тестового набора данных [1].

Ежедневные данные о поступающей солнечной энергии преобразуются в целую группу кластеров вместе в один с ежедневно поступающей солнечной энергией от 98 сайтов Mesonet в Оклахоме, как показано на рисунке 1 (отличается от точек сетки данных о погоде с 1994 по 2007 год).

2. Выбор предикторов

Из-за различных факторов, влияющих на погоду, доступные данные о погоде сгруппированы в соответствии с данными. На выходе должна быть ежедневная ожидаемая солнечная энергия для каждого дня, места и модели погоды. Был составлен массив из 29 параметров погоды, взятых для 3 разных временных меток дня и 4 ближайших станций, что дало массив 490 предикторов для каждого заданного дня, места и модели погоды. Далее алгоритмы реализовывались на данных за каждый день, сайт и модель.

Оценивается среднее значение прогнозов мощности из разных моделей и рассчитывается их комбинированный прогноз. Однако все параметры погоды прогнозируются по одной и той же модели, поэтому не потерять корреляцию, которая есть у одной модели (5 моделей, 490 предикторов), работать одновременно со всеми моделями вместе (490 х 5 предикторов) утомительно. Поэтому шаги, выбранные для запуска алгоритмов:

1. взять среднее значение каждого параметра на 5 моделях

2. тренируйте одну модель на всех днях и площадках

3. для каждого участка/сутки: оценить поступающую солнечную энергию

На данном этапе данные о погоде имели: 98 площадок х 5113 дней х (75+1) параметры (расстояние Мезонет-ГЭФС) х4

станции. Таким образом, результат: 76x4 = 304 признака и 98x5113 = 501074 выборки для 98x1796 = 176008 прогнозов.

3. Анализ данных

Анализируются обширные следы исторических данных с метеостанции, а также соответствующие прогнозы погоды, чтобы соотнести показатели погоды, представленные в прогнозе, с интенсивностью солнечного излучения в ваттах на м2, зарегистрированной метеостанцией. Наш анализ дает количественную оценку того, как каждый параметр прогноза влияет друг на друга и на интенсивность солнечного излучения. Для сбора солнечной энергии было установлено, что покров неба, относительная влажность и осадки сильно коррелируют друг с другом и с интенсивностью солнечного излучения, тогда как температура, точка росы, скорость ветра и другие параметры также лишь частично коррелируют друг с другом и с солнечной интенсивностью.

Несколько методов машинного обучения были применены для получения моделей прогнозирования солнечной интенсивности с использованием нескольких показателей прогноза, а затем для анализа точности прогнозирования каждой модели. Алгоритмы машинного обучения были применены к обучающему набору данных исторических наблюдений и прогнозов солнечной интенсивности для получения функции, которая вычисляет будущую солнечную интенсивность для заданного временного горизонта из набора прогнозируемых погодных показателей.

Были сформулированы модели, основанные на линейной регрессии методом наименьших квадратов, а также на методах опорных векторов (SVM). Было обнаружено, что SVM с ядрами радиальной базисной функции, построенной с использованием исторических данных из семи метеорологических метрик, на 27% точнее, чем существующие модели, основанные на прогнозах, которые используют только состояние неба для прогнозов, и на 51% лучше, чем простые подходы, которые используют только прошлое для прогнозирования. предсказать будущее.

Перед запуском любого алгоритма на массивном наборе данных было важно понять, какое влияние некоторые функции оказали на результат. Итак, параметры погоды, которые казались наиболее значимыми, были использованы и построены тепловые карты. Были качественно выделены и сглажены выходной параметр области, где облачности больше из тех, где небо яснее, как показано на рис. 2, а также где солнечный поток максимален. Естественно, когда есть перекрытие, было замечено, что коротковолновый поток оказывает большое влияние на конечный результат. Хотя это не единственный фактор. Западно-восточное распределение облаков, при этом облака чаще встречаются на востоке, также, вероятно, будет иметь высокую отрицательную корреляцию с выходом. Затем потребовался дополнительный количественный предварительный анализ, чтобы точно зафиксировать нелинейность данных путем измерения корреляции между факторами и ответом. Диаграммы рассеяния были полезны для визуальной оценки вида корреляции между ними: линейная, полиномиальная, обратная и т. д. Было замечено, что когда в день было больше определенного количества облаков, то солнечная энергия очень низка. Эта зависимость вряд ли будет только линейной, но она может быть линейной по частям (солнечная энергия уменьшается до нуля).

4. Методы регрессии

4.1 Нейронная сеть

Была создана модель прогнозирования, сгруппированная по сезонам года, и использован ансамбль нейронных сетей для прогнозирования солнечной энергии. Поскольку назначенные веса играют важную роль в точном прогнозировании, факторы были смягчены с помощью надежной архитектуры и инициализации. Нейронная сеть была сгруппирована таким образом, чтобы создать сложную сеть, чтобы сделать окончательный прогноз.

Входной слой будет иметь комбинацию 80 нейронных сетей с данными за 1994–2007 годы. Каждая нейронная сеть имеет данные ежедневного прогноза, а также минимальные, максимальные и средние значения 80 переменных. Этот метод был частично взят из [4]S. Чена, Б. Малгрю и П. М. Гранта, где они кластеризовали набор данных, прежде чем применять свои данные в нейронной сети, но в нашей статье мы взяли в общей сложности 2 миллиона строк, чтобы сделать весь набор данных, который сгруппирован по сезонам. Веса присваиваются относительно времени суток, когда наблюдается пиковая выходная мощность. Модель будет прогнозировать дневную, месячную и годовую мощность, вырабатываемую указанным количеством солнечных панелей.

В предложенной нами нейронной сети было всего 325 нейронов с одним скрытым слоем с 80 скрытыми нейронами и 5 выходными нейронами. Каждый входной нейрон имеет разный вес в зависимости от его зависимости от выходного. Прогнозирование выполняется в два этапа, все отдельные сети делают прогнозы отдельно, и эти данные используются скрытым слоем для прогнозирования окончательного результата.

Каждая из этих отдельных нейронных сетей используется для обучения набора тестов и проверки. После завершения обучения точность нейронной сети рассчитывается путем проверки наименьшей средней абсолютной ошибки (MAE), и для будущих прогнозов выбирается наиболее эффективная нейронная сеть. Эта модель точно фиксирует изменения в данных и их зависимости с прогнозируемым результатом.

Комбинация алгоритма Гаусса-Ньютона и градиентного спуска использовалась для получения обратной связи по точности от нейронной сети. Обратная связь включает в себя быструю сходимость и стабильность, что способствует скорости обучения.

4.2 Случайные леса

Этот метод хорошо подходит для нашего набора данных, поскольку он может обрабатывать 80 функций с более чем 2 миллионами записей и может отображать сложную взаимосвязь между функциями и выходными данными. Подход, основанный на дереве, также смог выявить нелинейные отношения признаков из прогнозов.

Компания Random Forests смогла обработать наш набор данных, чтобы построить большое количество деревьев решений, чтобы создать разрозненные наборы обучающих данных с начальной загрузкой и минимизировать среднюю абсолютную ошибку (MAE) за счет динамического масштабирования деревьев, чтобы точно учитывать изменение параметров. При применении метода весь набор данных разбивается с использованием K складок. Это обеспечит улавливание несоответствий в погодных условиях в течение нескольких лет, а также позволит использовать слабые предикторы путем их объединения для формирования из них сильного комбинированного предиктора.

При построении случайного леса количество деревьев динамически обновлялось для создания с использованием нескольких моделей перекрестной проверки и выбиралось одно с оптимальным результатом, как показано на рисунке 4. С помощью этого метода было обнаружено, что для получения идеального результата необходимо построить 2952 дерева.

5. Заключение

Обработка такого большого объема данных была действительно сложной задачей, подготовка данных была основной частью проекта. Предварительная обработка данных с примерно 2 миллионами записей была сложной задачей и требовала компьютера с высокой вычислительной мощностью. Этот проект заставил нас работать не только над точным прогнозированием, но и над оптимизацией времени и ресурсов, применяя алгоритмы машинного обучения, поскольку они, как правило, занимают много времени.

Случайный лес был наиболее эффективным алгоритмом по сравнению с ансамблевой нейронной сетью и простой нейронной сетью, как показано на рисунке 3.

ССЫЛКИ

[1] AMS 2013–2014 Solar Prediction Contest, набор данных http://www.kaggle.com/c/ams-2014-solar-energy-prediction-contest/.

[2] В.-К. Чен, Линейные сети и системы (книжный стиль). Бельмонт, Калифорния: Уодсворт, 1993, стр. 123 135.

[3] Б. Смит, Подход к графам линейных форм (неопубликованный стиль работы), неопубликовано.

[4] С. Чен, Б. Малгрю и П. М. Грант, Метод кластеризации для выравнивания канала цифровой связи с использованием сетей с радиальными базисными функциями, IEEE Trans. Нейронные сети, том. 4, стр. 570578, июль 1993 г.