Помогает ли функция Engineering DL Models

Классическая модель машинного обучения страдала, когда ей бросали вызов неструктурированные данные. Особым случаем в данном случае был ImageNet Challenge, где сначала передовой уровень техники должен был использовать некоторые интеллектуальные функции, созданные вручную, а затем сильный классификатор, такой как SVM. Позже их превзошли модели CNN.

Теперь это создание функций, созданных вручную, очень интуитивно понятно и представляет собой трудоемкий процесс проб и ошибок. Именно здесь модели CNN заработали с точки зрения автоматического извлечения признаков. Если вы действительно взглянете на глубокое обучение с высоты 30 000 футов, в основе его лежит просто изучение представлений. Скрытые слои — прекрасный пример того, как новые представления изучаются из входных данных. Все идет нормально. Но ленивый ум будет бросать вам вызов альтернативными идеями, т. е. почему бы не смешивать и не сочетать. Может быть, использовать интуицию старого мира, а затем соединить ее с усвоенными представлениями.

Что ж, это то, на что мы попытались ответить в контексте предсказания солнечной энергии. Это область (прогнозирование солнечной энергии), в которой лаборатория Data Science Lab Университета Калькутты некоторое время работает с Национальным институтом энергии ветра, а также в рамках деятельности лаборатории LISA (https://www.lisa2020.org/ .)

Мы уже публиковали блог по прогнозированию солнечной энергии, где была описана основная постановка задачи и некоторые вопросы проектирования и рекомендации. (https://towardsdatascience.com/building-lstm-based-model-for-solar-energy-forecasting-8010052f0f5a). Краткий обзор мотивации заключается в том, что точный прогноз прогнозирования солнечной энергии необходим для устойчивого использования. Как правило, глобальная горизонтальная освещенность (GHI) является хорошим показателем фактической мощности солнечной батареи. GHI измеряет количество радиации, полученной сверху горизонтальной поверхностью. Это включает в себя излучение, полученное непосредственно, а также рассеянное излучение. Основываясь на окне прогнозирования, проблему можно классифицировать как краткосрочную, среднесрочную и долгосрочную. Оказывается, краткосрочное прогнозирование (измеряемое в часах) является наиболее сложным, основанным на правдоподобных колебаниях погоды.

Для простоты мы подошли к этому как к проблеме одномерного прогнозирования, т. е. предыдущие значения GHI используются в качестве предикторов. В последнее время модели LSTM и GRU довольно широко используются в качестве машин для прогнозирования. Теперь есть популярный вариант LSTM, GRU, которые называются двунаправленными моделями. Это дает отличные результаты, а также семантическое значение, особенно в прогнозировании языка. Если вы пытаетесь предсказать одно из средних слов предложения, вы, по сути, используете слова, предшествующие этому слову, а также слова, следующие за ним.

В случае временных рядов у нас нет такой роскоши, поскольку у нас нет последующих, то есть будущих значений. Интересно, что если мы просто используем предыдущее значение вместо последующего значения, мы все же получим лучшие результаты. Типичная установка показана на рис. 1 ниже.

По сути, допустим, у вас есть последовательность 15, 20, 22, 24, и вы хотите предсказать следующее значение, у вас есть один GRU, который принимает входные данные 15, 20, 22, 24, часто называемый прямым GRU. Затем вы используете другое представление той же последовательности в обратном порядке, то есть 24, 22, 20 и 15, которое используется другим GRU, называемым обратным GRU. Окончательный прогноз является функцией прогноза обоих GRU. Эта входная последовательность прямой модели часто называется прямым контекстом, а последовательность для обратной модели называется обратным контекстом.

Это показалось нам довольно неубедительным, и мы подумали, что можем ли мы получить лучшую замену, чем предыдущие значения. Поэтому мы подумали, давайте заменим это с предыдущего дня. Например, если мы пытаемся предсказать значение GHI для 08:00 24 мая, мы можем использовать значения 07:00, 07:15 и 07:45 от 24 мая и 08:15, 08 Значения :30 AM и 08:45 AM от 23 мая.

На самом деле, в более общей схеме прямой ввод и обратный ввод могут иметь разную длину. Такая установка показана на следующем рисунке, мы называем это двунаправленной моделью прогнозирования с действительно двунаправленными функциями.

На самом деле, в предлагаемом нами методе мы использовали более длинный прямой контекст, где мы использовали не только значения 07:00, 07:15, 07:45 от 24 мая, но и 07:00, 07:15, 07:00. 45 значений AM от 23 мая.

Иметь интуицию недостаточно, вам нужно установить ее путем обширного исследования/эксперимента. В этом эксперименте используются данные за 2016 год для трех климатических зон (жаркая и сухая, теплая и влажная, холодная и облачная), шести станций, расположенных в Ченнаи (Тамилнад), Ховрах (Западная Бенгалия), Гунтур (Андхра-Прадеш), Котада Питха (Гуджрат) и Аджмер (Раджастхан).

Эти результаты и установка эксперимента были очень тщательно проработаны. Чтобы получить перегруженную версию, вы можете обратиться к журнальной статье здесь. Мы провели несколько других сравнений предлагаемой двунаправленной модели с действительно двунаправленными функциями (BD-BLSTM) с классической однонаправленной моделью под названием ULSTM, вариантом однонаправленной модели с некоторым обогащением входных характеристик, называемым MLSTM, ванильная двунаправленная модель с той же предшествующей последовательностью для прямой и обратной модели (BLSTM), а затем пара недавних работ Раны и Абделя.

Результаты всех моделей измеряются в nRMSE. nRMSE известен своей независимостью от масштаба и представлен в виде приведенного ниже уравнения.

Если вы посмотрите на приведенные выше диаграммы, то станет ясно, что двунаправленные модели с двунаправленными функциями дали самую низкую среднюю ошибку (смещение) и самую низкую изменчивость ошибки (дисперсию) во всех климатических зонах.

Какова мораль истории? Очевидно, что двунаправленная модель с двунаправленной функцией действительно крутая, но это не то, чего мы хотели добиться. Скорее, важный вывод заключается в том, что если вы хотите дополнить свое понимание (жемчужины мудрости) ML в DL, вы можете улучшить свои модели, а не просто слепо развертывать модели глубокого обучения.