Введение -

Одной из областей моих исследований является использование процесса моделирования байесовской статистики в области вероятностного программирования и использование знаний предметной области для моделирования переменной или признаков в наборе данных и их построения таким образом, чтобы обеспечить математическое обоснование, например, в какой коэффициент изменения определенной переменной может помочь нам предсказать целевую переменную.

По сути, в этой статье я поделился отчетом о наборе данных, над которым я работал, и выполнил прогнозирование с использованием методов байесовской статистики, которые также используют знания предметной области от экспертов в виде распределения.

Этот набор данных («weekly_media_sample.csv») содержит выборку еженедельных данных медиамаркетинга (всего за 208 недель), фиксирующих доходы, полученные от различных расходов на три медиа. Другие переменные, такие как конкуренты и подписка на новостную рассылку, также включены.

Высокая корреляция между этими двумя переменными может привести к мультиколлинеарности, что означает, что независимые переменные в модели сильно коррелированы, что затрудняет определение влияния каждой переменной на целевую переменную. Это может привести к ненадежной модели с нестабильными коэффициентами и завышенными стандартными ошибками.

Чтобы решить эту проблему, можно рассмотреть возможность удаления одной из переменных или использования метода регуляризации, такого как регрессия Риджа или Лассо, которая может помочь уменьшить влияние сильно коррелированных переменных на модель.

Однако если вы используете нелинейную модель, такую ​​как дерево решений или случайный лес, высокая корреляция может не иметь такого большого влияния. В этом случае модель может более эффективно отражать нелинейные отношения между переменными.

# Когда моделирование началось с использования регрессии Ridge and Elastic Net после выполнения моделирования с различными моделями.

Эта линия заполняет область между верхней и нижней доверительными границами прогнозов модели регрессии хребта. Границы рассчитываются с использованием среднеквадратичной ошибки (mse_ridge) и постоянного значения 1,96, что соответствует 95% доверительному интервалу. Заполненная область окрашена в синий цвет.

Таким образом, вы использовали несколько моделей регрессии (лассо, линейная, случайный лес, гребневая регрессия) для прогнозирования маркетинговых доходов за заданный период и обнаружили, что гребенчатая регрессия обеспечивает наилучшие результаты. Затем вы использовали гребенчатую регрессию, чтобы спрогнозировать доходы от маркетинга за тестовый период, и нанесли результаты на график с 95% интервалами. Кроме того, вы также сравнили результаты гребневой регрессии с регрессией эластичной сети для наглядности.

Важно отметить, что выбор регрессионной модели зависит от конкретной проблемы и анализируемых данных. В этом случае вы выбрали гребневую регрессию, поскольку она обеспечивает наилучшие результаты. Тем не менее, всегда рекомендуется попробовать несколько моделей и сравнить их производительность, прежде чем сделать окончательный выбор.

Как смоделировать временные эффекты набора данных —

Подогнал модель SARIMA к обучающим данным и сгенерировал прогнозы для тестового набора. Наконец, мы вычисляем показатели производительности модели (среднеквадратическая ошибка, средняя абсолютная ошибка и R-квадрат) и наносим на график фактические и прогнозируемые значения.

Обратите внимание, что в этом примере мы использовали модель SARIMA с порядком (1, 1, 1) и сезонным порядком (1, 1, 1, 12), что указывает авторегрессионный член первого порядка, разность первого порядка, скользящий средний срок и сезонный порядок 12 (указывающий на месячную сезонность). Эти порядки были выбраны на основе результатов поиска по сетке в диапазоне значений параметров.

Включив в нашу модель временные компоненты, мы сможем фиксировать закономерности в данных, связанные со временем года, месяцем, неделей или днем, а также долгосрочные тенденции. Это может помочь нам делать более точные прогнозы и лучше понимать факторы, влияющие на доход от медиамаркетинга.

Байесовские методы

  • Априорные значения: mu_prior = нормальное распределение со средним значением 0 и стандартным отклонением 100 и sigma_prior = обратное гамма-распределение с параметром формы 1 и параметром масштаба 1. Они неинформативны, потому что они очень широкие и плоские, что означает, что они не накладывают любые сильные предположения относительно данных.
  • Априоры не сопряжены. Это означает, что апостериорное распределение не имеет той же формы, что и априорное распределение. В этом случае апостериорное распределение представляет собой многомерное t-распределение.
  • В коде используется алгоритм Метрополиса-Гастингса, который является разновидностью алгоритма MCMC. Он случайным образом генерирует новые выборки из предлагаемого распределения, а затем решает, принять или отклонить новую выборку на основе сравнения апостериорных вероятностей текущей и предложенной выборок. Алгоритм Метрополиса-Гастингса часто используется, когда апостериорное распределение трудно или невозможно вычислить аналитически, как в данном случае.
  • Мы использовали байесовские методы для моделирования данных и получения первоначальных результатов.
  • Эти результаты являются индикаторами того, насколько хорошо работает модель.
  • Мы можем использовать эти результаты для создания базовой модели.
  • Затем мы можем улучшить модель, используя различные варианты модели, например, изменяя ее сложность или добавляя знания предметной области.

Значение R-квадрата -0,9831328609894467 намного ниже (более отрицательное), чем любое из предыдущих значений R-квадрата. Это говорит о плохом соответствии модели и о том, что независимые переменные не объясняют большую часть вариации зависимой переменной. Средняя абсолютная ошибка 0,2647945770449601 намного выше любого из предыдущих значений MAE, что указывает на что модель допускает большие ошибки в своих прогнозах. Среднеквадратическая ошибка 0,10173504985167074 совпадает со значением, полученным с помощью метода MCMC, который предполагает, что производительность двух моделей аналогична с точки зрения эта метрика. Среднеквадратическая ошибка 0,3189593231928967 выше, чем значения RMSE для линейной регрессии, гребневой регрессии и регрессии случайного леса, но ниже, чем значения RMSE для моделей регрессии Лассо, SARIMA и ARIMA. . Это указывает на то, что модель допускает большие ошибки в своих прогнозах по сравнению с некоторыми другими моделями, но меньшие ошибки по сравнению с другими.

Алгоритм Метрополиса-Гастингса

Алгоритм Метрополиса-Гастингса представляет собой метод Монте-Карло с цепями Маркова (MCMC) для получения последовательности случайных выборок из вероятностного распределения, из которого прямая выборка затруднена. Используется в статистике и статистической физике. Распределение предложений Q предлагает следующую точку, в которую может переместиться случайное блуждание. Алгоритм был частично назван в честь Николаса Метрополиса, первого соавтора статьи 1953 года, озаглавленной «Уравнение расчетов состояния с помощью быстрых вычислительных машин», с Арианной В. Розенблут, Маршаллом Розенблутом, Августой Х. Теллер и Эдвардом Теллером. В течение многих лет алгоритм был известен просто как алгоритм Метрополиса.

Результаты.Показатель принятия 0,03 % предполагает, что предлагаемые изменения в пространстве параметров принимаются не очень часто, что может указывать на то, что распределение предложений не подходит или что размер шага слишком мал. Как правило, желательна более высокая скорость принятия, но это зависит от решаемой проблемы.

  • Апостериорное среднее значение коэффициентов представляет собой среднее значение оценочных коэффициентов по всем апостериорным выборкам. В этом случае апостериорные средние значения коэффициентов равны [0,2091364 -0,05373825 0,14151015 0,76375752 -0,11074902], что можно интерпретировать следующим образом:
  • Коэффициент для media1_S положительный, что указывает на то, что увеличение расходов на первый тип медиа связано с увеличением доходов. Коэффициент для media2_S отрицательный, что указывает на то, что увеличение расходов на второй тип СМИ связано с уменьшением доходов. Коэффициент для media3_S положительный, что указывает на то, что увеличение расходов на третий тип СМИ связано с увеличением доходов. Коэффициент для «competitor_sales» положительный, что указывает на то, что увеличение продаж конкурентов связано с увеличением доходов. Коэффициент для «рассылки» отрицательный, что указывает на то, что рассылка рассылок связана со снижением доходов.
  • Эти результаты представляют собой предполагаемые апостериорные средние значения и стандартные отклонения коэффициентов регрессии с учетом наблюдаемых данных и априорного распределения.
  • Апостериорное среднее для каждого коэффициента представляет собой среднее значение этого коэффициента по всем выборкам, сгенерированным алгоритмом MCMC. Например, расчетное апостериорное среднее значение первого коэффициента равно 0,209, что означает, что в среднем увеличение «media1_S» на одну единицу связано с увеличением дохода на 0,209 с учетом других переменных.
  • Апостериорное стандартное отклонение для каждого коэффициента представляет собой степень неопределенности в оценочном значении. Большее стандартное отклонение указывает на более высокую степень неопределенности. В этом случае коэффициенты для «media1_S» и «competitor_sales» имеют относительно большие стандартные отклонения, чем другие коэффициенты, что указывает на то, что оценки для этих коэффициентов являются более неопределенными.
  • В целом, эти результаты дают представление о взаимосвязях между переменными-предикторами и переменной отклика, а также о степени неопределенности этих взаимосвязей. Однако имейте в виду, что эти результаты основаны на конкретном выбранном предварительном распределении и используемом алгоритме MCMC, поэтому они могут не отражать истинные значения генеральной совокупности.

График трассировки — это графическое представление эволюции алгоритма Монте-Карло цепи Маркова (MCMC), поскольку он генерирует выборки из апостериорного распределения. График трассировки можно использовать для оценки сходимости алгоритма MCMC и выявления любых потенциальных проблем с моделью.

Третья строка отображает график трассировки объекта InferenceData. График трассировки представляет собой графическое представление эволюции алгоритма Монте-Карло цепи Маркова (MCMC) по мере того, как он генерирует выборки из апостериорного распределения. График трассировки можно использовать для оценки сходимости алгоритма MCMC и выявления любых потенциальных проблем с моделью.

График трассировки представляет собой линейный график выборок, где ось X — это номер итерации, а ось Y — значение выборки. График трассировки должен представлять собой гладкую восходящую линию без явных скачков или разрывов. Если на графике трассировки видны какие-либо скачки или пропуски, это может указывать на то, что алгоритм MCMC не сошелся.