Классификация устойчивости электрической сети с использованием случайного леса, метода опорных векторов и наивного…

Написано и проанализировано Мухаммедом Фарханом Путра Абдиллахом

Введение

Сегодня много говорят о том, как будет выглядеть электросеть в будущем. Все согласны с тем, что она будет включать в себя новые технологии, которые позволят нам разумно управлять сетью. Интеллектуальную сеть можно определить как использование новых интеллектуальных устройств для замены старых аналоговых устройств в энергосистеме. Интеллектуальная сеть будет использовать эти новые интеллектуальные устройства, чтобы обеспечить дистанционное управление и предоставить новые возможности для децентрализованного управления. Кроме того, интеллектуальная сеть предназначена для помощи электросети в нештатных ситуациях. Например, контроллер Grid Friendly Appliance, разработанный в Тихоокеанской северо-западной национальной лаборатории (PNNL), будет определять состояние сети, отслеживая частоту системы и обеспечивая автоматический ответ на запрос нагрузки во время сбоев для улучшения частоты сети. Этот контроллер будет установлен в некоторых устройствах, чтобы отключить их или уменьшить нагрузку на несколько минут или даже несколько секунд, чтобы позволить сети стабилизироваться. Подобные проекты изменят способ эксплуатации и анализа энергосистемы [1].

Проблемы, независимо от определения, огромны. Конечно, трансформация сетки изменит способ ее эксплуатации и анализа. В этой работе изучаются некоторые новые идеи о том, как управлять энергосистемой в децентрализованной, но интеллектуальной схеме. Представлены некоторые примеры, а также проблемы, которые они привносят в электроэнергетическую сеть. Основываясь на этом случае, методы интеллектуального анализа данных могут помочь нам построить интеллектуальную сеть, которая может определить, находится ли система электроснабжения в стабильном или нестабильном состоянии.

Целью данного исследования является классификация состояния электроэнергетической системы, которое может быть классифицировано как устойчивое или неустойчивое. Надеемся, что это исследование будет очень полезным для тех, кто хочет больше узнать об интеллектуальной сети, или даже для тех, кто хочет начать строить интеллектуальную сеть, особенно в государственном или частном секторе.

2. Материалы и методы

В этом анализе используемые методы включают методы предварительной обработки данных и методы классификации данных.

Сбор данных

Данные, используемые в этом исследовании, собраны из репозитория машинного обучения UCI под названием «Смоделированные данные о стабильности электрической сети». Набор данных содержит 10 000 наблюдений, 13 атрибутов и 1 атрибут класса. Атрибуты этого набора данных:

· Tau[x] : время реакции участника (реальное из диапазона ([0.5,10]s), x= 1,2,3,4

· P[x] : номинальная потребляемая мощность (отрицательная)/производимая (положительная) (реальная), x= 1,2,3

· G[x] : коэффициент (гамма), пропорциональный ценовой эластичности (реальной), x= 1,2,3,4

· Stab : максимальная действительная часть корня характеристического уравнения (если положительный –

система почти нестабильна) (реально)

· Stabf : · метка стабильности системы (стабильная/нестабильная)

Предварительная обработка данных

Методы обработки данных, применяемые до майнинга, для существенного улучшения общего качества добываемых шаблонов и времени, необходимого для фактического майнинга. Предварительная обработка данных является важным шагом в процессе обнаружения знаний, поскольку решения о качестве должны основываться на данных о качестве [2]. Иногда в данных возникают различные проблемы, которые могут мешать результатам самого процесса майнинга, такие как пропущенные значения, выбросы или форматы данных, несовместимые с системой.

Случайный лес

Случайный лес — это метод классификации, состоящий из независимых деревьев классификации (CART). Предсказание классификации получается большинством голосов сформированных деревьев классификации. Случайный лес является расширением набора методов, разработанных Брейманом (2001) [3], и используется для повышения точности классификации. Случайный лес отличается от процесса бэггинга в том смысле, что процесс бэггинга использует начальную загрузку для создания дерева классификации в различных версиях, а затем объединяет эти версии вместе для получения окончательного прогноза. Напротив, процесс рандомизации в случайном лесу для формирования дерева выполняется не только для выборочных данных, но и для переменных-предикторов, что приводит к набору деревьев классификации разных размеров и форм. Ожидаемый результат — набор деревьев классификации с очень низкой корреляцией между деревьями. Эта низкая корреляция снижает точность классификации случайного леса.

Машина опорных векторов

Метод опорных векторов (SVM) — очень популярный метод классификации. SVM впервые был представлен Вапником (1999) [4] на Ежегодном семинаре по вычислительной теории обучения. SVM — один из методов, который был разработан для решения задач классификации и прогнозирования, которые не могут быть решены классическим подходом. SVM был разработан с использованием принципа линейного классификатора. Однако в большинстве случаев не удовлетворяется предположение о линейности, и поэтому SVM был разработан для соответствия нелинейному случаю путем введения концепции ядра. В исследовании Hsu et al. (2003) [5] показали, что классификация с использованием SVM дает точное отображение. Идея SVM состоит в том, чтобы найти оптимальную гиперплоскость на входном пространстве. Функция гиперплоскости используется как разделитель двух классов на входном пространстве. Классы обычно обозначаются -1 и +1. Рис. 1 иллюстрирует гиперплоскость на SVM. Шаблон для класса 1 показан прямоугольниками, а шаблон для класса +1 показан кружками. На рис. 1а показаны разделительные линии между двумя классами (дискриминантные границы). Лучшая линия та, у которой максимальное поле гиперплоскости. Поле — это расстояние между гиперплоскостью и ближайшим образцом в каждом классе. Ближайший шаблон называется опорным вектором. На рис. 1б кружками показан опорный вектор для каждого класса. Более того, жирная линия — лучшая гиперплоскость, так как она расположена посередине классов. Процесс нахождения положения оптимальной гиперплоскости лежит в основе SVM.

Наивный байесовский метод

Наивный байесовский классификатор — это вероятностный классификатор, основанный на теореме Байеса и учитывающий наивное (сильное) предположение о независимости. Наивные байесовские классификаторы предполагают, что влияние значения переменной на данный класс не зависит от значений других переменных. Это допущение называется условной независимостью класса. Наивный байесовский метод часто может выполнять более сложные методы классификации. Это особенно подходит, когда размерность входных данных высока. Когда нам нужен более компетентный вывод, по сравнению с выводом других методов, мы можем использовать наивную байесовскую реализацию. Наивный байесовский метод используется для создания моделей с прогностическими возможностями [6].

Теорема Байеса:

Вероятность (B при условии A) = Вероятность (A и B) / Вероятность (A)

Чтобы вычислить вероятность B при заданном A, алгоритм подсчитывает количество случаев, когда A и B встречаются вместе, и делит его на количество случаев, когда A встречается отдельно. Пусть X — кортеж данных. В байесовских терминах X считается «доказательством». Пусть H — некоторая гипотеза, например, кортеж данных X принадлежит классу C. P(H|X) — это апостериорная вероятность H, обусловленная X. Напротив, P(H) — это априорная вероятность H.

3. Результаты и обсуждение

Прежде чем выполнять классификацию данных, будет виден исходный образец, который показан данными с использованием описательной статистики. Всего в данных существует 14 атрибутов, включая 1 атрибут класса. Сами данные содержат 10 000 объемов данных, что означает, что это большой набор данных. Поскольку у нас есть большой набор данных, набор данных будет разделен на две части данных: данные обучения и данные тестирования. Данные обучения будут содержать 80% набора данных или равны 8000 данных, а данные тестирования будут содержать оставшиеся данные или равны 2000 данных.

Из-за большого количества признаков, которые могут вызвать затруднения при анализе, далее будет производиться выделение признаков. Метод, используемый в этом исследовании, — это метод CfsSubsetEval в программном обеспечении weka. На основе этого метода только 9 атрибутов из набора данных считаются важными или влиятельными для классификации, а следующие атрибуты: 1, 2, 3, 4, 9, 10, 11, 12 и 13.

Далее мы классифицируем следующие атрибуты, используя Waikato Environment for Knowledge Analysis (WEKA) благодаря его способности обнаруживать, анализировать и прогнозировать закономерности. Алгоритмы сначала применяются к набору обучающих данных с использованием стратифицированной 10-кратной проверки, чтобы оценить эффективность методов классификации для дальнейшего прогнозирования класса на данных тестирования. Результат показывает, что случайный лес более точен, чем другие методы классификации, применяемые к набору обучающих данных, такие как SVM и наивный байесовский метод. Затем мы проделаем то же самое с набором тестовых данных, чтобы обеспечить лучший метод классификации.

Матрица путаницы случайного леса

=== Матрица путаницы ===

а б ← классифицируется как

1281 0 | а = ИСТИНА

1 718 | б = ЛОЖЬ

Матрица путаницы машины опорных векторов

=== Матрица путаницы ===

а б ← классифицируется как

1273 8 | а = ИСТИНА

13 706 | б = ЛОЖЬ

Матрица путаницы наивного Байеса

=== Матрица путаницы ===

а б ← классифицируется как

1256 25 | а = ИСТИНА

15 704 | б = ЛОЖЬ

Матрица путаницы была получена для расчета показателей точности, чувствительности и специфичности. Матрица обозначает образцы, классифицированные как истинные, другие как ложные, а другие неправильно классифицированные. Эти методы убедительно свидетельствуют о том, что алгоритмы интеллектуального анализа данных способны предсказывать класс. Матрица путаницы четко классифицирует точность модели, а матрица подтверждает эффективность модели.

В приведенной выше таблице показана точность классификации на основе различных применяемых методов, что доказывает, что лучшим методом классификации является алгоритм случайного леса, который обеспечивает наивысшую точность 99,95% в этом наборе данных, в то время как точность метода опорных векторов и наивного байесовского алгоритма ниже точность случайного леса.

4. Заключение

Мы предложили классификацию с методом выбора признаков, то есть CfsSubsetEval, и выбор признаков проводится для того, чтобы получить более высокую точность классификации. В моем исследовании процесс выбора функций показывает, что количество используемых функций оказывает значительное влияние на время выполнения и требует больше времени для вычислений, чем процесс классификации. В процессе классификации мы использовали 10-кратную перекрестную проверку данных обучения, а также данных тестирования, а также использовали матрицу путаницы для расчета точности. Классификация на тестовом наборе данных показывает, что алгоритм Random Forest имеет самую высокую точность 99,95%. Таким образом, мы можем сделать вывод, что алгоритм Random Forest является лучшим классификатором для классификации набора данных электрической сети.

Ссылки

[1] Ангел, А.Л. (2010). Распределенное и децентрализованное управление энергосистемой. 1.

[2] Аша Говда Кареговда, М.А. Джаярам, А.С. Манджунат, «Каскадная кластеризация K-средних и классификатор K-ближайших соседей для категоризации пациентов с диабетом», International Journal of Engineering and Advanced Technology (IJEAT), vol. 1, нет. 3, февраль 2012 г., стр. 147–151.

[3] Брейман. (2001). Случайный лес. Машинное обучение, 45:5–32.

[4] С, С. и В., В. (1995). Джей Мах Жри. 273.

[5] Хсу, C.W., C.C. Chang and CJ Lin, 2003. Практическое руководство по классификации векторов. Англия Университет Саутгемптона

[6] Маньюша К. К., К. С. (2014). Прогнозирование различных дерматологических состояний с использованием наивной байесовской классификации. Международный журнал передовых исследований в области компьютерных наук и разработки программного обеспечения, 865.

Классификация устойчивости электрической сети с использованием случайного леса, метода опорных векторов и наивного…

Вопросы по теме