TL; DR
В качестве шага к обработке данных узнайте, как объединить несколько наборов данных вместе и проанализировать историю, лежащую в основе данных.
Контур
- Вступление
- Прежде чем мы начнем
- Объединение всех данных
- Подписки по электронной почте
- Заключение
Вступление
В настоящее время продукты обычно интегрируют ИИ во многие приложения или функции. В этом руководстве мы рассмотрим, как ИИ используется в маркетинговых кампаниях по электронной почте, и начнем с объединения всех наших наборов данных. Наконец, мы завершим эту серию обзором подготовки данных, чтобы мы были готовы провести обучение модели машинного обучения с нашим набором данных.
Прежде чем мы начнем
К настоящему времени вы уже должны быть знакомы с объединением фреймов данных вместе, фильтрацией и сортировкой. Если нет, прочитайте вторую часть нашей вводной серии и серии статей по подготовке данных. Мы начнем с представления этих трех наборов данных: email_content, user_emails и user_profiles.
Объединение всех данных
Изучив эти наборы данных, мы будем искать сходства, которые можно использовать для объединения наборов данных вместе. Мы возьмем набор данных с наиболее подходящими идентификаторами user_emails и свяжем его как с email_content, так и с профилями пользователей.
Взглянув на фрейм данных, мы видим, что в user_emails есть 2 идентификатора, user_id и email_id. Они соответствуют идентификатору в user_profile и email_content соответственно.
Я начну с переименования столбцов с идентификатора на соответствующее имя столбца.
Затем мы можем вызвать слияние. Я выбрал левое соединение, потому что слева находится наш основной набор данных.
Вот и все. Мы завершили подготовку данных для обучения модели машинного обучения.
Подписки по электронной почте
Затем мы сделаем лаконичные выводы на основе данных. Во-первых, давайте получим необработанные данные, ответив на вопросы о подписках пользователей нашей почтовой кампании. Затем мы перейдем к созданию модели для определения вероятности оттока.
Вам нужно отправить следующий маркетинговый отчет о потенциальных клиентах, начальник хочет знать, насколько хорошо вы справились и как выросла компания с момента ее основания.
Для этого вам нужно получить данные о трех клиентских показателях.
Сколько клиентов отписались хотя бы раз?
Мы начинаем с выбора важных данных, user_id и статуса отказа от подписки. Обратите внимание: мы отфильтровываем оставшиеся столбцы, потому что нам важны только пользователи, а не количество писем.
Какой тип подписки был наименее популярным?
Еще раз, нам нужны только user_id, sub status и category.
Затем мы группируем их по каждому типу подписки или «категории» и подсчитываем.
Какие темы не так интересуют наших клиентов?
Еще раз, нам нужны только user_id, unsubscribed и theme.
Заключение
Основываясь на этих показателях, мы делаем вывод о том, что нам следует избегать рекламных писем, а также писем об улучшении образа жизни. Пользователи платформы, похоже, заинтересованы в электронных письмах о еде и тех, которые являются чисто транзакционными. В следующих сериях мы вернемся к этим данным, чтобы создать модель, которая лучше, чем просто делать выводы, выбирая лучшее из каждой категории и темы.