Это портфолио создано для финального проекта Bootcamp Data Science. Исходный код объяснит на языке Bahasa. Этот проект анализирует, какие факторы больше всего влияют на тип энергетической нагрузки, какой фактор вызвал энергетическую нагрузку, которая классифицируется как максимальная нагрузка, насколько эффективно потребляется энергетическая нагрузка.

Согласно Википедии, в статистике исследовательский анализ данных (EDA) представляет собой подход к анализу наборов данных для обобщения их основных характеристик, часто с использованием статистических графиков и других методов визуализации данных. Статистическая модель может использоваться или нет, но в первую очередь EDA предназначен для того, чтобы увидеть, что данные могут сказать нам помимо формального моделирования, и тем самым противопоставить традиционную проверку гипотез. В этом проекте использовались статистические графики, методы визуализации данных и модели.

Судя по этой статье, значение SHAP — это настоящий прорыв в интерпретации машинного обучения. Значение SHAP может работать как с проблемами регрессии, так и с классификацией. Также работает с различными типами моделей машинного обучения, такими как логистическая регрессия, SVM, древовидные модели и модели глубокого обучения, такие как нейронные сети. В задаче регрессии, даже если функции коррелируют, значение SHAP может правильно назначить важность функции. Следовательно, каждый разработчик машинного обучения должен иметь этот инструмент в своем наборе навыков для представления результатов модели. Значение SHAP помогает выбрать, какая функция важна, а какая бесполезна, путем построения графиков. Значение SHAP стало известным инструментом за очень короткий период времени, потому что раньше у нас была интерпретация только в табличной форме, поэтому получить результат стало сложно, но в визуальном представлении важности функции мы можем получить результат с первого взгляда.

Наборы данных можно найти по адресу https://archive.ics.uci.edu/ml/datasets/Steel+Industry+Energy+Consumption+Dataset.

Данные собираются с умной мелкой сталелитейной промышленности в Южной Корее. Собранная информация получена от DAEWOO Steel Co. Ltd в Кванъяне, Южная Корея. Он производит несколько типов рулонов, стальных листов и железных листов. Информация о потреблении электроэнергии хранится в облачной системе. Информация об энергопотреблении в промышленности хранится на веб-сайте Корейской электроэнергетической корпорации (pccs.kepco.go.kr), а также рассчитываются и показываются перспективы по ежедневным, месячным и годовым данным.

Потребление энергии является одним из важных аспектов в промышленном мире. Чем эффективнее потребляется энергия, тем эффективнее понесенные затраты. В этом проекте представлен анализ того, какие факторы больше всего влияют на тип энергетической нагрузки и какой фактор вызывает энергетическую нагрузку, которая классифицируется как максимальная нагрузка, а также насколько эффективно потребляется энергетическая нагрузка.

Информация об атрибутах

  1. Дата — дата/время за 15 минут.
  2. Usage_kWh = Потребление энергии в промышленности — непрерывное (кВтч)
  3. Laging_Current_Reactive.Power_kVarh = Отстающий ток реактивной мощности — непрерывный (кВарч)
  4. Leading_Current_Reactive_Power_kVarh = Реактивная мощность опережающего тока — непрерывная (кВарч)
  5. CO2(tCO2) = уровень CO2(CO2) — непрерывный (ppm)
  6. Lagging_Current_Power_Factor = коэффициент мощности отстающего тока - непрерывный (%)
  7. Leading_Current_Power_Factor = Коэффициент мощности опережающего тока, непрерывный — (%)
  8. NSM = количество секунд от полуночи непрерывно — (с)
  9. WeekStatus= Статус недели — Категориальный (выходной (0) или рабочий день (1))
  10. Day_of_week= День недели — Категориальный с понедельника по воскресенье
  11. Load_Type= Тип нагрузки — Категориальная легкая нагрузка, средняя нагрузка, максимальная нагрузка

Какие факторы больше всего влияют на тип энергетической нагрузки?

ЭДА

Из рисунка выше видно, что график NSM имеет разнообразное распределение. Распределение светлого, среднего и максимального выглядит ровным (не одним). Даже график Lagged_Current_Power_Factor также имеет различное распределение, но NSM имеет более широкое распределение, чем Lagging_Current_Power_Factor.

Важность функции SHAP

Ось X имеет целевое значение, а именно классификацию типа нагрузки. x — выбранное наблюдение, f(x) — прогнозируемое значение модели с входными данными x и E[f(x)], которое является ожидаемым значением целевой переменной или, другими словами, средним значением всех прогнозов, абсолютным Значение SHAP показывает нам, насколько одна функция влияет на прогноз, поэтому NSM является самым большим, Usage_kWh — вторым, Usage_kWh — третьим, а CO2 — функцией с наименьшим вкладом в прогноз.

На приведенном выше графике функции упорядочены от наибольшего к наименьшему влиянию на прогноз. При этом учитываются абсолютные значения SHAP, поэтому не имеет значения, положительно или отрицательно влияет функция на прогноз.

Графики силы — это еще один способ взглянуть на влияние каждой функции на прогноз для данного наблюдения. На этом графике положительные значения SHAP показаны слева, а отрицательные справа, как бы конкурируя друг с другом. Выделенное значение является прогнозом для этого наблюдения.

Согласно выполненному EDA, NSM является наиболее влиятельным фактором энергетической нагрузки. Это также подтверждается с помощью моделирования с помощью метода SHAP Feature Importance, где этот метод обеспечивает значение SHAP (Shapley Additive ExPlanations), которое основано на теории совместных игр и используется для повышения прозрачности и интерпретации моделей машинного обучения. Из трех сводных графиков выше все они показывают одно и то же, поэтому выводы моделирования считаются такими же, как выводы сделанного EDA.

Какой фактор запускает энергетическую нагрузку, которая классифицируется как максимальная?

Usage_kWh, Lagging_Current_Reactive.Power_kVarh и CO2 — это факторы, которые вызывают энергетическую нагрузку, которая классифицируется как максимальная нагрузка. Как видно из графика, который разделен на 3 части в зависимости от энергетической нагрузки, три фактора имеют график, который значительно увеличивается, когда энергетическая нагрузка классифицируется как максимальная нагрузка.

Насколько эффективно потребляется энергетическая нагрузка?

Чем ближе день недели/выходной, тем меньше энергетическая нагрузка. Из построенного графика видно, что по мере приближения выходных, то есть субботы и воскресенья, легкая нагрузка увеличивается, а средняя и максимальная нагрузки уменьшаются, поэтому можно сделать вывод, что в выходные дни потребление энергии не так велико, как в будние дни.

Если посмотреть на график распределения энергетической нагрузки, то видно, что легкая нагрузка имеет самый высокий номер среди остальных. Таким образом, можно сказать, что энергопотребление за 2018 год по-прежнему считается эффективным.

Заключение

  1. NSM является наиболее влияющим фактором для типа энергетической нагрузки
  2. Чем ближе к выходным, тем меньше энергетическая нагрузка
  3. Usage_kWh, Lagging_Current_Reactive.Power_kVarh и CO2 вызвали энергетическую нагрузку, которая классифицируется как максимальная нагрузка
  4. Из проведенного анализа можно сделать вывод, что в этом наборе данных видно, что потребляемая энергетическая нагрузка по-прежнему относительно эффективна.

Рекомендация

Если компания хочет еще больше снизить затраты, значение этих 3 факторов (факторов, вызвавших срабатывание максимальной нагрузки) можно уменьшить. Чтобы уменьшить значение этих 3 факторов, мы можем обсудить это с подразделением, которое занимается этими 3 факторами (обычно с технической поддержкой или инженером).

Надеюсь, эта статья может быть полезной. Вы можете найти исходный код в здесь