Проект направлен на глубокое понимание электромобилей и разработку модели классификации наиболее эффективных типов электромобилей.

Репозиторий GitHub:



Фон

В последнее время большое внимание уделяется электромобилям (EV) как устойчивому и экологически чистому транспортному решению. С ростом внедрения электромобилей становится необходимым точно классифицировать типы электромобилей, чтобы лучше понимать их характеристики и принимать обоснованные решения. В этом проекте была разработана классификационная модель для различения аккумуляторных электромобилей (BEV) и подключаемых гибридных электромобилей (PHEV) на основе различных характеристик и данных, собранных из набора данных о численности электромобилей.

Цель

Основная цель этого проекта — построить надежную классификационную модель, способную точно идентифицировать типы электромобилей на основе их характеристик. Проводя различие между BEV и PHEV, он стремится внести свой вклад в знания и понимание технологии электромобилей и помочь различным промышленным применениям. Кроме того, этот проект также предназначен для получения глубоких знаний, связанных с электромобилями.

Источник данных

Набор данных, используемый для этого проекта, был получен от Kaggle, в частности, набор данных Население электромобилей, доступ к которому можно получить по адресу (https://www.kaggle.com/datasets/gunapro/electric-vehicle-population-data) . Этот набор данных содержит информацию об электромобилях, включая их VIN (идентификационный номер автомобиля), год выпуска, марку, модель, право на участие в программах экологически чистых автомобилей на альтернативном топливе, запас хода на электротяге, базовую рекомендованную производителем розничную цену и другие важные характеристики. Набор данных состоит из 130 443 строк и 17 столбцов.

Подготовка данных

Подготовка данных включала в себя следующий процесс:

  1. Проверка на дублирование данных.
  2. Проверка и обработка отсутствующих значений, а также отсутствующие значения в данных обрабатываются путем удаления выборок и заполнения отсутствующих значений статистическими значениями.
  3. Разработка функций, картирование объектов состояния, извлечение функций долготы и широты и преобразование данных в желаемую форму.
  4. Кодирование. Используемые методы кодирования: порядковое кодирование и частотное кодирование.

Исследовательский анализ данных (EDA)

EDA полезен для глубокого понимания данных и получения ценных знаний посредством визуализации данных. EDA в этом проекте состоит из одномерного, двумерного и корреляционного анализов. Ниже приведены некоторые графики процесса EDA:

  • Распределение типов электромобилей (цель)

  • Распределение типов электромобилей (целевое) по городам

  • Распределение типов электромобилей (целевое) по брендам

  • Распределение типов электромобилей (целевое) по годам выпуска

  • Распределение типов электромобилей (целевое) на основе права на экологически чистые альтернативные виды топлива (CAFV)

  • Тепловая карта корреляции признаков

На приведенном выше графике показано, что не так много функций, которые имеют сильную линейную корреляцию с целью. Это означает, что большинство корреляций, содержащихся в наборе данных, являются нелинейными. Исходя из этого, подходящей моделью для использования является модель, которая имеет хорошую производительность на наборах данных, которые имеют много нелинейных корреляций, таких как дерево решений, случайные леса, повышение градиента, нейронные сети и машина опорных векторов (SVM).

Моделирование

Процесс экспериментирования с моделью в этом случае будет использовать базовые алгоритмы наивного Байеса, логистической регрессии, случайного леса и XGBoost. Основываясь на предварительном знании корреляции между функциями, лучше всего разработана модель, которая может хорошо работать с наборами данных со многими нелинейными корреляциями между функциями, такими как Random Forest и Gradient Boosting. Ниже приведен пример процесса моделирования для лучшей модели Random Forest:

  • Выборка

Количество целевых классов указывает на несбалансированное состояние. Этого нужно избегать, чтобы модель не вызывала смещения. Чтобы преодолеть это, необходимо сделать выборку, чтобы количество целевых классов приближалось к сбалансированному состоянию.

  • Отчет о классификации

  • Перекрестная проверка

  • Настройка гиперпараметров

Оценка модели

Выбор модели

В данном конкретном случае относительные пропорции ложноположительных результатов (FP) и ложноотрицательных результатов (FN) не имеют существенного значения для бизнеса. Следовательно, основное внимание уделяется разработке модели, которая может точно предсказать целевую переменную. Таким образом, используемыми показателями оценки являются точность, которая измеряет долю правильных прогнозов от общего числа выборок, и оценка ROC-AUC, которая оценивает способность модели различать два класса.

Приоритизируя точность, цель состоит в том, чтобы максимизировать общую правильность прогнозов, не делая особого акцента на компромиссе между FP и FN. Оценка ROC-AUC обеспечивает всестороннюю оценку производительности модели по различным пороговым значениям классификации и указывает на способность модели правильно ранжировать классы. Такой подход позволяет более сбалансированно оценивать и выбирать модель на основе ее способности точно предсказывать целевую переменную.

Наилучшая модель была выбрана из модели, которая дала самый высокий средний показатель ROC-AUC для тестовых данных и не указывает на переоснащение или недообучение. На основании приведенной выше таблицы выбрана модель Random Forest со средним показателем ROC-AUC для тестовых данных 0,999998.

Матрица путаницы

Класс 0: BEV (аккумуляторный электромобиль)
Класс 1: PHEV (подключаемый гибридный электромобиль)

На приведенной выше тепловой карте показана матрица путаницы лучшей модели после процесса настройки. Дает истинно отрицательный (TN) 76,64%, истинно положительный (TP) 23,21%, ложноотрицательный (FN) 0,01%, ложноположительный (FP) 0,14%, что означает, что модель имеет высокую точность в классе прогнозирования.

Кривая ROC-AUC

На приведенном выше графике показана кривая ROC AUC с почти идеальной оценкой 0,999998. Это означает, что модель хорошо работает при прогнозировании каждого класса.

Важность функции

Класс 0: BEV (аккумуляторный электромобиль)
Класс 1: PHEV (подключаемый гибридный электромобиль)

График важности признаков представляет относительную важность каждого признака в модели машинного обучения. Он дает представление о том, какие функции оказывают наиболее значительное влияние на прогностическую эффективность модели. Более высокая оценка важности указывает на более сильное влияние на прогнозы модели. Эти функции могут предоставить ценную информацию о базовых шаблонах или отношениях в данных.

На основе приведенного выше графика известны важные характеристики, такие как «Электрический диапазон», «Модель», «Соответствие экологически чистым альтернативным видам топлива», «Марка» и другие.

Результат

По итогам всего процесса результаты следующие:

  1. Наилучшей полученной моделью является Random Forest, которая дает точность и показатели ROC-AUC 0,999617 и 0,999998 соответственно.
  2. Электромобили типа BEV (Battery Electric Vehicle) имеют самый большой процент - 76,8%.
  3. В округе Кинг самое большое количество электромобилей: 41,9% для BEV и 10,6% для PHEV.
  4. Город Сиэтл занимает второе место по количеству электромобилей: 13,7% для BEV и 3,9% для PHEV.
  5. Штат Вашингтон является штатом с наибольшим количеством электромобилей с общим процентом 99,7% (BEV и PHEV).
  6. На долю электромобилей 2022 модельного года приходится наибольшая доля: 18,3% для BEV и 3,2% для PHEV.
  7. Электромобили производства Tesla были самыми многочисленными с 45,7% (BEV и PHEV).
  8. Электромобили с наибольшей вероятностью соответствуют требованиям приемлемости для автомобилей с чистым топливом (с низким уровнем выбросов) в 46,4% (BEV и PHEV), за ними следуют электромобили с неизвестным статусом соответствия в 41% (BEV и PHEV) и электромобили с неприемлемым статусом в 46,4% (BEV и PHEV). 12,6% (BEV и PHEV).
  9. Электромобили с электрическими утилитами Puget Sound Energy были наиболее распространены - 58,4% (BEV и PHEV).