Набор данных
В этом проекте набор данных online_shopper_intention, содержащих данные о поведении пользователей на платформе торговой площадки за 12 месяцев, будет использоваться для оценки эффективности и создания маркетинговой стратегии, Платформа. Эти данные отражают поведение клиентов, а также путь от перехода на веб-сайт до конверсии и получения дохода.
На упомянутых выше веб-страницах генерировалась и собиралась информация о посещении пользователя для оценки. Всего имеется 12 330 данных без пропущенных данных, но около 1% данных дублируются. После очистки общее количество данных, которые мы можем исследовать, составило 12 205 с характеристиками, указанными в таблице ниже.

Контролируемое машинное обучение

Отбрасывание избыточных данных
Этот проект и исследование здесь должны сосредоточиться на поведении пользователя на веб-сайте. Есть некоторые данные, которые можно удалить, чтобы оптимизировать реализацию машинного обучения. Удаление данных выполняется для данных, связанных с демографией пользователей (данные, связанные с пользователями), поскольку мы хотим сосредоточиться только на поведении. Другие данные, такие как административные, информационные и связанные с продуктом, также удаляются. Это связано с тем, что природа PageValues ​​является функцией этих трех данных.

Кодирование
Как показано выше, в наборе данных есть данные типа str и bool. Кодирование применяется для облегчения процесса машинного обучения и облегчения процесса понимания результата.

Метод выбора
В зависимости от характера используемых данных функции будут давать выходные данные одной из двух групп, в которых верно (1) для получения дохода или нет. (0) для дохода, не полученного от посещения определенного пользователя. Исходя из этого механизма, для этого состояния подходит машинное обучение категоризации. В этом случае используются методы KNN, логистическая регрессия и случайный лес. Подход с деревом решений не рассматривается, поскольку случайный лес является более надежным подходом, в котором используется несколько деревьев решений для уменьшения переобучения.

Балансировка данных перед моделированием

Поскольку в целевых данных имеется очень значительный дисбаланс данных, избыточная выборка данных для дохода == «Истинные» данные, чтобы сбалансировать общую сумму. Используемый метод — передискретизация SMOTE для снижения риска переобучения.

Моделирование
Используя данные баланса, можно выполнить оценку с использованием показателя точности, указанного ниже.

Основываясь на приведенном выше результате, наиболее подходящим подходом является случайный лес с матрицей путаницы, показанной ниже.

Интерпретация модели
Природа случайного леса более сложна, чем линейная регрессия, которая может легко понять значительное влияние функции на цель, увидев константу функции. Чтобы иметь аналогичное понимание с подходом случайного леса, можно использовать классификатор важности.

Основываясь на приведенном выше результате важности, 5 наиболее важных функций:

  1. PageValues
  2. ProductRelation_Duration
  3. ExitRates
  4. Административная_длительность
  5. Кластеры

Регрессия PageValues
Чтобы лучше понять, какая страница может оказать наибольшее влияние на общее получение дохода, была создана модель с подходом гребневой регрессии. Гребневая регрессия выбрана, поскольку природа гребневой регрессии будет включать все переменные, участвующие в моделировании, в отличие от лассо, которое может свести влияние определенной переменной к нулю.
При использовании метода регрессионной регрессии корреляция значений PageValues ​​с административными, информационными и связанными со страницами приведена ниже.

Заключение

Судя по приведенному выше результату, административная страница является приоритетной страницей, которую необходимо улучшить. Это улучшение приведет к увеличению PageValues ​​пользователя и административной_длительности. По мере того, как увеличивается привлекательность административной страницы, ExitRates также будет уменьшаться. Таким образом, переоценка административной страницы может повлиять на PageValues, ExitRates и Administration_Duration, и все эти функции являются приоритетными функциями, которые повлияют на общее получение дохода.