Прогнозирование фармацевтических продаж

«Форсайт — это не предсказание будущего, а сведение к минимуму неожиданностей».

(Карл Шредер)

Фармацевтическая промышленность является неотъемлемой частью сектора здравоохранения. Как бизнес, многие факторы влияют на продажи, такие как расходы на маркетинг, экономические условия, удовлетворенность клиентов и сезоны. Прогнозирование продаж — это метод, который можно использовать для прогнозирования эффективности организации на основе исторических данных. Это позволяет бизнесу разработать план на будущее, определяя тенденции продаж и выделяя недостатки в ключевых областях. Преимущества прогнозирования продаж могут быть следующими:

  • Сокращение затоваривания и дефицита
  • Обеспечение удовлетворенности клиентов
  • Сокращение сбоев

Этот проект включает анализ временных рядов для прогнозирования продаж с использованием данных Rossmann Pharmaceuticals. Целью проекта является прогнозирование продаж компании на основе результатов ее деятельности в прошлом. Помимо информации о продажах, в этом анализе учитываются и другие показатели эффективности.

Для комплексного заключения будут предприняты следующие шаги:

1. Очистка данных

2. Исследование данных

3. Предварительная обработка данных

4. Моделирование

Данные

Предоставленный набор данных состоит из категориальных и числовых атрибутов, которые можно использовать для предоставления информации о Rossmann Pharmaceuticals. Эти данные были собраны из записей компании с 2013 по 2015 год. Они содержат записи из 1115 магазинов. В таблице ниже показан каждый атрибут с описанием его содержимого и типа данных.

Предварительная обработка данных

Успех любого анализа данных определяется чистотой данных для моделирования. Ошибки в собранных данных возникают из различных источников данных. Предоставленные данные содержали 21% отсутствующих значений, которые были заполнены медианой, модой и нулями в зависимости от последствий отсутствующих значений. Выбросы также были удалены, поскольку они могли ввести в заблуждение нашу модель.

Исследовательский анализ данных

Исследование данных было проведено для определения характеристик каждого признака данных, его распределения и общей корреляции с другими признаками. Это было визуализировано с помощью библиотек визуализации, таких как seaborn и matplotlib.

а. Одномерный анализ

На этом этапе мы проверяем распределение каждой функции независимо.

В этом распределении мы видим, что магазинов, предлагающих акции, меньше, чем тех, которые не предлагали акции покупателям.

Используются разные типы моделей магазинов Rossmann. Судя по данным, тип модели магазина A более популярен.

Товарный ассортимент в бизнесе – это стратегический инструмент, используемый для управления и увеличения продаж. Ассортимент – это совокупность товаров, предназначенных для продажи. Согласно анализу, тип ассортимента А является наиболее частым. Однако в ассортименте B имеет самые высокие продажи.

б. Двумерный анализ

Этот анализ показал, что магазины открыты в будние дни и закрыты по воскресеньям, за исключением нескольких магазинов.

Сезонность данных

• Сезоны по-разному влияют на разные предприятия.

  • Государственные праздники включают государственные праздники, праздник Пасхи и праздник Рождества. Этот анализ показал, что большинство магазинов закрываются в праздничные дни, за исключением нескольких магазинов.

  • Например, Рождество — это сезон радости и веселья, распределение ниже показывает, что всплеск продаж во время распределения ниже показывает, что сезон Рождества, затем они нормализуются после сезона.

• С другой стороны, Пасха – это время в году, когда люди празднуют встречу со своими близкими. Дети также находятся дома в течение сезона.

  • Распределение ниже показывает, что продажи резко возросли в пасхальные выходные.

В мире бизнеса рекламные акции используются для повышения узнаваемости бренда, продуктов или услуг компании. С точки зрения клиента, продвижение означает меньше трат, поэтому они покупают чаще или чаще. Предприятия используют их в качестве стратегии в зависимости от отрасли и размера бизнеса.

Исходя из приведенного выше анализа, хорошая рекламная стратегия будет определяться продажами в разных магазинах. В этом случае большее количество рекламных акций приводит к увеличению продаж, поэтому магазины, совершающие менее 15 000 продаж в день, должны рассмотреть возможность их проведения, чтобы привлечь больше покупателей. Новые магазины и те, кто имеет дело с конкуренцией, также могут использовать эту технику для повышения узнаваемости.

Конкуренция влияет на деятельность компании. Однако по выборке из 20 магазинов мы обнаружили, что конкуренция не оказывает негативного влияния на продажи. Некоторые магазины новостроек, особенно в городских населенных пунктах, могут увеличить продажи за счет конкуренции.

в. Многомерный анализ

Приведенный выше анализ показывает соотношение продаж и клиентов в разные дни. Эти результаты показывают, что самые высокие продажи за день приходятся на воскресенье и четверг. Из этого мы узнаем, что те немногие магазины, которые открываются по воскресеньям, имеют самые высокие продажи. На самом деле, если вам нужно лекарство в воскресенье, вы не можете ждать до понедельника.

Корреляционный анализ

График корреляции показывает, что продажи тесно связаны с открытием или закрытием магазина, количеством покупателей, полученных за день, и рекламными акциями. Эти три будут основой нашего моделирования.

Подготовка данных

Был разработан конвейер для подготовки данных для моделирования и процедуры моделирования для непрерывной разработки. Для этого использовались конвейеры Sklearn. При подготовке данные нормализуются и масштабируются в соответствии с требованиями различных моделей. Также были созданы разные версии данных по результатам корреляционного анализа. Для управления версиями я сосредоточился на данных, основанных на открытых или закрытых магазинах, рекламных акциях и клиентах. Благодаря управлению версиями данных можно легко получить доступ к различным версиям, размещенным удаленно.

Моделирование

Для анализа временных рядов пророк используется для анализа данных, выделяющих влияние нелинейных тенденций, таких как сезонность и влияние праздников, после ежедневных, еженедельных, ежемесячных или годовых записей. В этом проекте данные поезда использовались для обучения модели. Профет использовал модель аддитивной регрессии, где:

y(t)= g(t) + s(t) + h(t) + ϵt

где:

· Тренд g(t): моделирует непериодические изменения.

· Сезонность s(t): представляет периодические изменения.

· Компонент «Праздники» h(t): предоставляет информацию о праздниках и событиях.

Заключение и рекомендация

Этот проект анализа временных рядов включает в себя науку о данных и процедуры машинного обучения с целью прогнозирования продаж фармацевтических препаратов Rossmann. Пророк был использован для прогнозирования данных. Также была проведена разработка функций, чтобы понять важность каждой функции.

Репозиторий Github: Репозиторий Github

Благодарность

Я благодарна команде 10 Academy за поддержку и обучение. Спасибо за предоставление всех ресурсов и создание отличного сообщества разработчиков.

Ссылки

· Пейшейро, М. (2022, 27 мая). Полное руководство по анализу временных рядов и прогнозированию. Середина. https://towardsdatascience.com/the-complete-guide-to-time-series-analysis-and-forecasting-70d476bfe775

• Хейс, С. (2022, 6 января). Поиск сезонных трендов в данных временных рядов с помощью Python. Середина. Geraadpleegd op 25 mei 2022, van https://towardsdatascience.com/finding-seasonal-trends-in-time-series-data-with-python-ce10c37aa861