Продажи Walmart с помощью прогнозирования временных рядов Холта-Уинтерса

В этой статье мы будем искать прогнозирование продаж данных о продажах в магазине Walmart и будем использовать общедоступный набор данных от Kaggle, имеющий ок. 4 миллиона замечаний. Анализ определяет прогноз продаж с использованием модели Холт-Винтерса, которая добавляет тренд, уровень и сезонность трех компонентов при прогнозировании. Модель была определена для прогнозирования, поскольку в данных еженедельных продаж наблюдалась линейная тенденция за три года. Сезонность наблюдалась в течение определенного периода времени, особенно в течение последних трех кварталов года, когда продажи могли увеличиться из-за распродаж в Черную пятницу и из-за праздничного сезона.

Модель Хольта-Винтера имеет уровень, который в основном представляет собой сглаживающее экспоненциальное уравнение. Это можно предположить как скользящее среднее; где мы сглаживаем сигналы путем усреднения во времени, и колебания происходят примерно в это время. Обозначается через l(t). Вторым компонентом модели является тренд, который представлен hb(t), что указывает на то, что прогнозирование тренда также увеличивается линейно с h (указывает количество прогнозируемых шагов). Тенденция может быть положительной или отрицательной, в зависимости от имеющихся у нас данных. Третий и последний компонент, который у нас есть, — это сезонный компонент. S(t+h-mk) оглядывается назад во времени, чтобы добавить сезонный компонент в данные. Например, если мы хотим сделать прогноз на предстоящий март, тогда kбудет последним мартом 2022 года, а m будет период времени (время цикла), в нашем случае это будет 12. В случае, если мы хотим предсказать продажи в предстоящий период черной пятницы, мы будем искать продажи в ноябре 2022 года, что означает, что это зависит от знание предметной области и виды данных, с которыми мы имеем дело. Таким образом, уравнение для прогнозирования с использованием модели Холта-Винтера:

Теперь давайте углубимся в данные, над которыми я работал, и какие методы предварительной обработки данных были применены:

1) Данные содержат значения меньше или равные нулю, которые были заменены средними значениями путем группировки магазина.

2) Искали выбросы в данных, используя квантильный метод, а также метод IQR. Метод IQR будет искать вероятные и возможные выбросы, используя метод правила Тьюки.

3) использование теста Адфуллера для проверки стационарности в данных Weekly_Sales.

4) Логарифмическое преобразование применяется к данным Weekly_Sales.

5) Установка периодического индекса для столбца datetime.

6) В логарифмическом преобразовании делаем разность, чтобы удалить нестационарность в данных, которые у нас есть.

На втором этапе подготовим поезд и тестовые данные; важное примечание для прогнозирования временных рядов: мы можем использовать train_test_split с помощью обучения scikit, потому что временные ряды должны поддерживаться. Для этого разделение данных на основе индексации было бы эффективным способом. В этой модели holt-winters будет использоваться аддитивный подход для совместного использования уровня, тренда и сезонности. В дополнение к этому доверительный интервал прогнозирования продаж также наблюдался, потому что со временем диапазон прогнозов между 10 и 90 процентилями также стал весьма важным в отношении прогнозируемые средние значения.

Некоторые выводы из данных, которые были отмечены, т.е.

  1. Максимальные продажи были сделаны в течение ноября и декабря.

2) Максимальные продажи Walmart наблюдаются в 2010 году, затем в 2011 году и последним в 2012 году.

3) Магазин с идентификатором 10 совершил максимальное количество продаж за неделю из 45 магазинов, за которым следует магазин с идентификатором 35.

При работе с ним возникли определенные ограничения, из-за которых холт-винтерс не смог эффективно фиксировать тенденции в данных и прогнозировании. Кроме того, другие факторы, такие как температура топлива и праздничные дни, должны влиять на продажи, что не учитывается в модели Холта-Уинтерса. Это можно дополнительно рассмотреть с помощью других алгоритмов временных рядов, таких как ARIMA, SARIMAX с эффектами acf и pacf, которые будут обсуждаться в следующей статье.

Здесь вы можете найти блокнот.

Надеюсь, вам понравилось читать статью, не стесняйтесь оставлять свои отзывы и здоровую критику. С нетерпением жду этого.