Регрессия данных о продажах BigMart с использованием Python ...

ЦЕЛЬ

Мотив этого задания - обучить алгоритм машинного обучения, который способен прогнозировать продажи продукта в конкретном магазине.

НАБОР ДАННЫХ

Набор данных был получен в kaggle, который состоит из 2 файлов csv (Train.csv, Text.csv). У нас есть набор данных Train (8523) и Test (5681), набор данных Train имеет как входные, так и выходные переменные (и). Нам нужно спрогнозировать продажи для набора данных Test.

Item_Identifier: уникальный идентификатор продукта
Item_Weight: Вес товара.
Item_Fat_Content: обезжиренный продукт или нет.
Item_Visibility:% от общей площади отображения всех продуктов в магазине, выделенной для конкретного продукта.
Item_Type: категория, к которой принадлежит товар.
Item_MRP: максимальная розничная цена (прейскурантная цена) продукта.
Outlet_Identifier: уникальный идентификатор магазина
Outlet_Establishment_Year: год открытия магазина.
Outlet_Size: размер магазина с точки зрения занимаемой площади.
Outlet_Location_Type: тип города, в котором расположен магазин.
Outlet_Type: будь то выход, просто продуктовый магазин или какой-то супермаркет.

Item_Outlet_Sales: продажи продукта в определенном магазине. Это переменная результата, которую необходимо предсказать.

АНАЛИЗ И ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА НАБОРА ДАННЫХ

Импорт данных в Kaggle и добавление необходимых модулей.

Данные Train.csv,

Переход к нормализации.

РАЗДЕЛЕНИЕ ТЕСТОВ ДЛЯ ПОЕЗДА

Теперь, когда у нас есть данные для обучения и тестирования, которые были нормализованы, мы можем начать обучение различных моделей, чтобы предсказать наиболее точную модель для прогнозирования продаж продукта (Item_Outlet_Sales).

МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ

Перед использованием моделей нам необходимо импортировать необходимые пакеты, т.е.

МНОГОЛИНЕЙНАЯ МОДЕЛЬ РЕГРЕССИИ.

СЛУЧАЙНАЯ МОДЕЛЬ ЛЕСА

МОДЕЛЬ ПОЛИНОМИАЛЬНОЙ РЕГРЕССИИ

МОДЕЛЬ SVR

РЕЗУЛЬТАТЫ

1] СЛУЧАЙНАЯ МОДЕЛЬ ЛЕСА: 56%

2] МОДЕЛЬ SVR: 53 %

3] МОДЕЛЬ ПОЛИНОМИАЛЬНОЙ РЕГРЕССИИ: 50%

4] МНОГОЛИНЕЙНАЯ МОДЕЛЬ РЕГРЕССИИ: 49%

Гипотеза

Основываясь на результатах, представленных выше, мы можем сделать вывод, что одной из обучающих моделей, способных предсказать с наивысшей точностью, была бы СЛУЧАЙНАЯ МОДЕЛЬ ЛЕСА с точностью 56% с отклонением 4%, что также можно интерпретировать так, что когда мы делаем новый прогноз с новыми значениями, точность определенно будет варьироваться в пределах 52% - 60%.

Мы можем понять, что СЛУЧАЙНАЯ МОДЕЛЬ ЛЕСА требует меньше времени по сравнению с остальными моделями.

Причина, по которой мы получаем низкую оценку точности для каждой модели, заключается в меньшем количестве данных.

ЦИТИРОВАНИЕ

Данные о продажах BigMart
Загружайте открытые наборы данных по тысячам проектов + делитесь проектами на одной платформе. Изучите популярные темы, такие как правительство… www.kaggle.com