Прогнозирование стоимости перепродажи автомобиля с использованием регрессора случайного леса

Ведущие организации ежедневно собирают тонны данных, чтобы принимать на их основе бизнес-решения и решения. С таким огромным объемом данных спрос на специалистов по данным и аналитиков данных значительно возрастает. Машинное обучение и искусственный интеллект меняют мир к лучшему завтра. Данные — это новая нефть 21 века, а машинное обучение — технология, построенная на их основе. Давайте уделим немного времени анализу трендовых технологических областей с помощью кривой Gartner Hype.

В настоящее время машинное обучение и искусственный интеллект применимы практически во всех сферах. Компании внедряют интеллектуальные решения на основе искусственного интеллекта в свои продукты, чтобы исключить ручное вмешательство. Давайте ограничимся автомобилями, и мы увидим, как это изменило опыт вождения.

Применение машинного обучения в автомобильной промышленности

В автомобильной промышленности машинное обучение чаще всего связано с инновациями продуктов. Более 78 % автомобильных компаний инвестируют в машинное обучение, чтобы регулярно улучшать взаимодействие с пользователем.

Давайте посмотрим на такие доступные решения:

Автономные автомобили. Такие компании, как Tesla, уже реализовали функцию автономного вождения в своих автомобилях. Tesla полагается на свои сложные алгоритмы компьютерного зрения и датчики, чтобы получить полный контроль над дорогами. Машинное обучение позволяет беспилотным автомобилям мгновенно адаптироваться к изменяющимся дорожным условиям.

Автомобильная парковка в режиме реального времени:Количество транспортных средств резко увеличивается, а с увеличением количества автомобилей возникают проблемы с парковкой. Smart Parking Systems решает такие проблемы, используя возможности машинного обучения и устройств IoT. Система сводит к минимуму вмешательство человека и экономит время, деньги и энергию.

Индикатор профилактического обслуживания. Каждая долговечная утилита требует своевременного обслуживания; автомобили не исключение! Автомобилю требуется адекватный уровень масла и охлаждающей жидкости, очистка воздушного фильтра и оптимальное давление в шинах. Модели прогнозного обслуживания на основе машинного обучения и Интернета вещей помогают отслеживать такие требования.

Анализ первопричин.Автосервисные компании используют системы на основе машинного обучения для анализа первопричин поломок автомобилей. Эти системы могут анализировать огромный поток исторической и текущей информации, находить аномалии и невидимые закономерности и делать выводы о той или иной поломке.

Вот некоторые приложения машинного обучения в автомобильной промышленности. Однако в этом блоге мы рассмотрим относительно более простую задачу — прогнозирование стоимости перепродажи подержанных автомобилей с помощью регрессионного анализа.

Теперь давайте начнем с понимания постановки задачи!

Понимание постановки задачи

Машинное обучение стало инструментом, используемым практически в каждой задаче, требующей оценки. Такие компании, как Cars24 и Cardekho.com, используют регрессионный анализ для оценки цен на подержанные автомобили. Теперь представьте себя конкурентом Cars24, и нам нужно построить модель для оценки цен на подержанные автомобили. Модель должна принимать параметры, связанные с автомобилем, и выводить цену продажи.

Цена продажи подержанного автомобиля зависит от определенных характеристик, указанных ниже:

Тип топлива
Год выпуска
Пройдено миль
Количество исторических владельцев
Запись о техническом обслуживании

Это проблема обучения с учителем, и ее можно решить с помощью методов регрессии. Нам нужно предсказать цену продажи автомобиля на основе заданных характеристик автомобиля. Для задач контролируемой регрессии требуются размеченные данные, где нашей целевой или зависимой переменной является цена продажи автомобиля. Все остальные признаки являются независимыми переменными.

Ниже приведены некоторые алгоритмы регрессии, которые можно использовать для прогнозирования цены продажи.

Линейная регрессия
Регрессор дерева решений
Регрессор опорных векторов
KNN-регрессор
Случайный лесной регрессор

Линейные модели относительно менее сложны и объяснимы, но линейные модели плохо работают с данными, содержащими выбросы. Линейные модели плохо работают с нелинейными наборами данных. В таких случаях алгоритмы нелинейной регрессии Random Forest Regressor и XGBoost Regressor лучше подходят для подбора нелинейных данных.

В этом уроке мы будем использовать регрессор случайного леса для прогнозирования продажной цены автомобилей. Наши данные содержат некоторые выбросы, и их обработка вполне возможна, но производительность моделей нелинейной регрессии нечувствительна к выбросам.

Анализ данных

В этом разделе выполняется прогнозирование цены продажи с использованием набора данных, состоящего из 8128 сведений о подержанных автомобилях. Этот набор данных подготовлен Cardekho.com и доступен на Kaggle.

import pandas as pd
cars = pd.read_csv("car_data.csv")
cars.head(5)

У нас есть некоторые категориальные объекты, а также непрерывные функции здесь.

Распределение цен на автомобили с разным топливом

Давайте визуализируем цену автомобилей в зависимости от типа автомобильного топлива.

sns.kdeplot(cars.loc[(cars[‘fuel’]==label), ‘selling_price’], color=clr, shade=True, label=label)

Статистика. Автомобили, работающие на дизельном топливе, как правило, дороже бензиновых; приведенный выше сюжет поддерживает нашу интуицию. Автомобили на газовом топливе относительно дешевле. Автомобили, работающие на сжатом природном газе, имеют небольшое преимущество перед автомобилями, работающими на сжиженном газе, с точки зрения расхода топлива и хранения, поэтому цена на автомобили, работающие на сжатом природном газе, относительно выше, чем на автомобили, работающие на сжиженном газе.

Матрица корреляции

Визуализация корреляций является эффективным способом определения зависимостей. На данном графике цена продажи тесно связана с годом выпуска, двигателем, максимальной мощностью и трансмиссией. Год выпуска двигателя и год изготовления имеют примерно одинаковую корреляцию, поэтому мы можем выбрать любой из них в финальном наборе признаков.

sns.heatmap(data = cars.corr(), cmap=”YlGnBu”, square=True)

Парный график

График пар позволяет нам видеть как распределения отдельных переменных, так и отношения между двумя переменными. Парные графики — отличный метод выявления тенденций для последующего анализа, и, к счастью, их легко реализовать в Python!

sns.pairplot(cars[[“selling_price”, “km_driven”, “engine”, “mileage”, “max_power”, “owner”]], hue=”owner”)

По мере роста собственности почти все параметры снижаются. Например, пробег автомобилей, принадлежащих первому владельцу, относительно выше, чем у последующих владельцев. То же самое касается максимальной мощности, двигателя и пробега. Это также очень интуитивно понятно!

Диаграммы рассеяния в парных диаграммах также помогают визуализировать выбросы. Наши данные содержат некоторые незначительные выбросы, которые мы можем спокойно игнорировать.

Регрессия случайного леса

Random Forest — это алгоритм обучения с учителем, который использует подход ансамблевого обучения для регрессии и классификации. Основной принцип, лежащий в основе методов ансамбля, заключается в том, что слабые ученики могут сформировать сильных учеников. Случайный лес работает путем построения нескольких деревьев решений во время обучения. Эти деревья решений независимо обучаются на загруженных наборах данных. Окончательное прогнозируемое значение вычисляется путем получения среднего значения прогнозов по всем отдельным деревьям.

Подгонка модели

Перед построением модели нам нужно разделить набор данных на наборы для обучения и тестирования. Мы будем использовать этот набор тестов для оценки производительности модели.

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
target = cars['selling_price']
features = cars[cars.columns.difference(['selling_price'])]
#---Creating the training and testing dataset
X_train, X_test, Y_train, Y_test = train_test_split(features, target, test_size=0.3)
#---Loading the baseline Random Forest Regressor 
rf = RandomForestRegressor()
#---Fitting the data over training set
rf.fit(X_train, Y_train)
#---Evaluating the performance over testing set
rf_confidence = rf.score(X_test, Y_test)
print("rf confidence: ", rf_confidence)
# rf confidence:  0.96997

Оценка эффективности

В статистике коэффициент детерминации, также известный как "R в квадрате", определяется как пропорция вариации зависимой переменной, которая предсказуема на основе независимых переменных. В нашем случае R в квадрате ближе к 1, что указывает на то, что модель надежна в прогнозировании цены продажи. Random Forest известен тем, что обеспечивает высокую точность даже без настройки гиперпараметров.

Остатки

Остаток — это мера того, насколько точка удалена по вертикали от тренда регрессии. Проще говоря, это ошибка между прогнозируемым значением и наблюдаемым фактическим значением.

visualizer = ResidualsPlot(rf)
visualizer.fit(X_train, Y_train) 
visualizer.score(X_test, Y_test) 
visualizer.show();

Остатки сосредоточены вокруг нуля, а коэффициент детерминации «R-квадрат» близок к 1.

Плюсы и минусы случайного лесного регрессора —

Плюсы:

Хорошо изучает сложные и нелинейные отношения
Очень объяснимо и легко интерпретируется
Устойчив к выбросам
Масштабирование функций не требуется

Минусы:

Потребляет больше времени
Требует высокой вычислительной мощности

Применение регрессионного анализа

КАРС24

CARS24 — это быстрорастущая индийская автомобильная компания, занимающаяся покупкой и продажей подержанных автомобилей. CARS24 хорошо согласуется с тем, чего мы достигли здесь, поскольку они в значительной степени полагаются на алгоритмы регрессии для оценки цены подержанного автомобиля как для продажи, так и для покупки. Они также используют регрессию для оценки топливной экономичности автомобилей.

АМЕРИКАН ЭКСПРЕСС

Компания American Express часто использует регрессию случайного леса для прогнозирования кредитоспособности заявителя. Это помогает команде кредитования American Express принять правильное решение о том, давать ли клиенту кредит или нет.

МЕРК И КО.

MERK использует регрессионный анализ для выявления оптимального сочетания компонентов в медицине и анализа истории болезни пациента для выявления заболеваний. Прошлые медицинские записи пересматриваются, чтобы установить правильную дозировку для пациентов.

ООО "Интерактив Брокерс"

Interactive Brokers LLC — американская многонациональная брокерская фирма. Их приложение для торговли акциями использует случайный лесной регрессор для прогнозирования предполагаемых убытков или прибыли при покупке определенных акций.

Возможные вопросы интервью

Чем классификатор случайного леса отличается от регрессора случайного леса?
Что такое ансамблевый подход к обучению?
Как вы будете гарантировать, что ваша модель не будет переоснащена?
Какие методы вы будете использовать для решения проблемы переобучения?
Какая входная характеристика больше всего влияет на цену автомобиля?

Заключение

Мы начали с понимания варианта использования машинного обучения в автомобильной промышленности и того, как машинное обучение изменило опыт вождения. Двигаясь дальше, мы рассмотрели различные факторы, влияющие на стоимость перепродажи подержанного автомобиля, и провели исследовательский анализ данных (EDA). Кроме того, мы строим модель регрессии случайного леса, чтобы предсказать стоимость перепродажи подержанного автомобиля. Наконец, мы оценили производительность модели, используя показатель R в квадрате и график остатка.

Мы могли бы также использовать более простые алгоритмы регрессии, такие как линейная регрессия и регрессия Лассо. Тем не менее, нам нужно убедиться, что в наборе данных нет выбросов, прежде чем внедрять их. Парные диаграммы и точечные диаграммы помогают визуализировать выбросы.

Рецензент контента: Равиш Радж (https://medium.com/@ravishraj)

Первоначально опубликовано на веб-сайте EnjoyAlgorithms:https://www.enjoyalgorithms.com/blog/car-resale-value-predictor-using-random-forest-regressor/