Набор данных CarDekho

ВВЕДЕНИЕ

Линейная регрессия — это линейный подход к моделированию отношений между двумя переменными, имеющими линейную зависимость. Он пытается подобрать линейное уравнение к наблюдаемым данным, где одна переменная является независимой, а другая — зависимой. Аналогично в случае множественной регрессии, но единственное отличие состоит в том, что для определения одной независимой переменной мы используем несколько зависимых переменных.

Y = w[0] * x[0] + w[1] * x[1] + w[2] * x[2] + …………….+ w[n] * x[n] + b

В приведенном выше уравнении от x[0] до x[n] являются зависимой переменной или признаками. W и b — параметры модели, которые изучены, а y — независимая переменная, которую мы прогнозируем. Другими словами, w — это наклон, а b — смещение по оси Y. Точка пересечения — это место, где линия регрессии должна пересекать ось Y.

ОПИСАНИЕ ДАННЫХ

В качестве эксперимента множественной линейной регрессии рассматривается набор данных Car Details. Набор данных и его описание приведены выше.

Ссылка на набор данных: https://www.kaggle.com/datasets/nehalbirla/vehicle-dataset-from-cardekho

ЭКСПЕРИМЕНТ

Мы выполнили первоначальный анализ данных, просканировав нулевые значения, но данные ничего не нашли. Анализ выбросов выполняется для целевой переменной со средним значением ящичковой диаграммы, и данные содержат много выбросов. Более практичным подходом было бы удаление выбросов, но, поскольку размер набора данных невелик, предлагается проводить анализ с наличием выбросов. Поскольку было несколько столбцов с категориальными данными, а с числовыми данными проще работать в вычислительном отношении, поэтому кодирование меток выполняется для столбцов с двумя категориями (т. е. преобразование данных в двоичный формат). В то время как в случае объектов с более чем двумя категориями для их преобразования применяется одно горячее кодирование.

Матрица корреляции разработана, чтобы понять, какая функция в наборе данных имеет наибольшую корреляцию с целевой переменной (мультиколлинеарность). На диаграмме видно, что передача и год имеют наибольшую корреляцию с продажной ценой, которая составляет (0,53 и 0,41) соответственно. Это дает представление о том, что эти две функции будут предикторами по сравнению с другими.

После исследовательского анализа данных набор данных делится на независимые переменные или признаки (x) и целевые зависимые переменные (y). Данные далее подразделяются на наборы Test (20%) и Train (80%).

Затем набор обучающих данных вписывается в модель линейной регрессии после использования метода прогнозирования, прогнозы делаются с использованием тестового набора и вычисляется точность. Теперь, чтобы проверить, подходит ли линия лучше всего для данного набора данных, мы полагаемся на следующие показатели:

Из приведенного выше наблюдения мы можем сделать вывод, что модель не является переподгонкой, поскольку разница между значением R2 обучения и набором тестовых данных не так велика, а точность модели составляет 44%. Модели также кажутся ненадежными, значения среднеквадратичного значения довольно велики. Поскольку мы имеем высокое значение RMSE и более низкое значение R2, мы можем сказать, что модель делает неверные прогнозы (высокий RMSE), а предиктор дает нам мало или совсем не дает информации о фактических наблюдениях (низкий R²).

Кроме того, наблюдения могут быть выполнены с использованием следующего графика плотности между фактическими и прогнозируемыми значениями. Желтая линия — это фактические данные, а красная линия — прогнозируемые данные. Если линии накладываются друг на друга, значит, модель точно предсказала значения. В нашем случае линии довольно близки друг к другу, поэтому мы можем предположить, что модель значительно проделала большую работу по прогнозированию значений.

ССЫЛКИ

https://www.analyticsvidhya.com/blog/2021/05/multiple-linear-regression-using-python-and-scikit-learn/

https://machinelearningmastery.com/regression-metrics-for-machine-learning/



КОД

https://github.com/sai2499/MultipleLinearRegression