Здравствуйте читатели,

Сегодня я хочу поделиться тем, как я построил свою модель, используя набор данных под названием Продажи в Черную пятницу. Данные доступны из Kaggle или AnalyticsVidhya.

Ссылка на подробный анализ: https://github.com/PujaSarkar04/Black-Friday-Sales.

Этот набор данных был смоделирован с расширенным использованием Jupyter Notebook. Усовершенствования, используемые в Jupyter, будут в моей следующей статье.

Этот набор данных был смоделирован с расширенным использованием Jupyter Notebook. Усовершенствования, используемые в Jupyter, будут в моей следующей статье.

Черная пятница – неофициальное название пятницы, следующей за Днем благодарения в США, который отмечается в четвертый четверг ноября.

Компании, занимающейся розничной торговлей, необходимо понять покупательское поведение клиентов (в частности, сумму покупки) в отношении различных товаров разных категорий. Они поделились сводкой о покупках различных клиентов для выбранных крупносерийных продуктов за последний месяц. Они хотят построить модель для прогнозирования количества покупок клиентов по различным продуктам, что поможет им создать персонализированное предложение для клиентов по различным продуктам.

В данных поезда содержится почти 5,5 миллиона наблюдений, а в тестовых данных — 2,3 лакха наблюдений.

Проблема:

Задача заключалась в том, чтобы предсказать сумму покупки различных продуктов пользователями по категориям с учетом исторических данных о суммах покупок.

Эту проблему можно классифицировать как задачу регрессии. Ожидается, что наш алгоритм предскажет сумму покупки, которую клиент, как ожидается, потратит в этот день.

Подход:

  1. Исследовательский анализ данных (EDA);
  2. Предварительная обработка данных;
  3. Разработка функций;
  4. Преобразование характеристик;
  5. Моделирование;

Показатель производительности: Обычно для задач регрессии типичным показателем производительности является RMSE (среднеквадратичная ошибка).

Гипотеза:

Гипотеза на уровне города:

  1. Тип и размер города. Городские города или города уровня 1 должны иметь более высокие продажи из-за более высокого уровня доходов людей.
  2. Плотность населения. Города с густонаселенными районами должны иметь более высокие продажи из-за большего спроса.
  3. Молодое население. Города с более молодым населением могут иметь более высокую склонность тратить больше в Черную пятницу.

Гипотезы уровня клиента:

  1. Доход. Люди с более высоким доходом должны больше тратить на продукты.
  2. Возраст и пол. Мужчины в возрасте от 25 до 40 лет должны больше тратить на технологические товары.
  3. Размер семьи.Семьи должны быть более сдержанными в расходах, покупая только лучшие предложения и только необходимые продукты.
  4. История покупок. Клиенты с историей покупок должны быть более склонны покупать больше товаров в этот день.

Гипотезы уровня магазина:

  1. Расположение. Магазины, расположенные на оживленных улицах, должны иметь более высокие продажи.
  2. Размер. В больших магазинах с высокими магазинами и разнообразием товаров продажи должны быть выше.
  3. Конкуренция. Магазины, рядом с которыми нет конкурентов, должны иметь самые высокие продажи.
  4. Маркетинг. Должны ли магазины, которые больше тратят на маркетинг, иметь лучшие результаты продаж?

Гипотезы уровня продукта:

  1. Категория. Большинство клиентов должны покупать технологические продукты;
  2. Цена. Клиент потратит больше на товары с более высокими скидками.
  3. Реклама. Чем больше рекламируются товары, тем больше продаж.
  4. Наглядность. Более заметные товары должны продаваться больше.
  5. Бренд: клиенты будут вкладывать больше средств в уже известные бренды.

Построение модели:

Я использовал следующие алгоритмы для прогнозирования покупки:

Линейная регрессия
Дерево решений
Случайный лес
XGBoost
Lasso Ridge

Сравнение:

Вывод:

After dropping Product category 3, 
  MAE: 2280.9
  RMSE: 3179.6
  RSquare: 0.60
  VIF: 2.5
  Accuracy:60.0 %

Наилучшим алгоритмом машинного обучения была модель дерева решений со среднеквадратичным значением ошибки = 3108,8 и точностью 61,7 %