TL; DR

В качестве шага к обработке данных узнайте, как объединить несколько наборов данных вместе и проанализировать историю, лежащую в основе данных.

Контур

  • Вступление
  • Прежде чем мы начнем
  • Объединение всех данных
  • Подписки по электронной почте
  • Заключение

Вступление

В настоящее время продукты обычно интегрируют ИИ во многие приложения или функции. В этом руководстве мы рассмотрим, как ИИ используется в маркетинговых кампаниях по электронной почте, и начнем с объединения всех наших наборов данных. Наконец, мы завершим эту серию обзором подготовки данных, чтобы мы были готовы провести обучение модели машинного обучения с нашим набором данных.

Прежде чем мы начнем

К настоящему времени вы уже должны быть знакомы с объединением фреймов данных вместе, фильтрацией и сортировкой. Если нет, прочитайте вторую часть нашей вводной серии и серии статей по подготовке данных. Мы начнем с представления этих трех наборов данных: email_content, user_emails и user_profiles.

Объединение всех данных

Изучив эти наборы данных, мы будем искать сходства, которые можно использовать для объединения наборов данных вместе. Мы возьмем набор данных с наиболее подходящими идентификаторами user_emails и свяжем его как с email_content, так и с профилями пользователей.

Взглянув на фрейм данных, мы видим, что в user_emails есть 2 идентификатора, user_id и email_id. Они соответствуют идентификатору в user_profile и email_content соответственно.

Я начну с переименования столбцов с идентификатора на соответствующее имя столбца.

Затем мы можем вызвать слияние. Я выбрал левое соединение, потому что слева находится наш основной набор данных.

Вот и все. Мы завершили подготовку данных для обучения модели машинного обучения.

Подписки по электронной почте

Затем мы сделаем лаконичные выводы на основе данных. Во-первых, давайте получим необработанные данные, ответив на вопросы о подписках пользователей нашей почтовой кампании. Затем мы перейдем к созданию модели для определения вероятности оттока.

Вам нужно отправить следующий маркетинговый отчет о потенциальных клиентах, начальник хочет знать, насколько хорошо вы справились и как выросла компания с момента ее основания.

Для этого вам нужно получить данные о трех клиентских показателях.

Сколько клиентов отписались хотя бы раз?

Мы начинаем с выбора важных данных, user_id и статуса отказа от подписки. Обратите внимание: мы отфильтровываем оставшиеся столбцы, потому что нам важны только пользователи, а не количество писем.

Какой тип подписки был наименее популярным?

Еще раз, нам нужны только user_id, sub status и category.

Затем мы группируем их по каждому типу подписки или «категории» и подсчитываем.

Какие темы не так интересуют наших клиентов?

Еще раз, нам нужны только user_id, unsubscribed и theme.

Заключение

Основываясь на этих показателях, мы делаем вывод о том, что нам следует избегать рекламных писем, а также писем об улучшении образа жизни. Пользователи платформы, похоже, заинтересованы в электронных письмах о еде и тех, которые являются чисто транзакционными. В следующих сериях мы вернемся к этим данным, чтобы создать модель, которая лучше, чем просто делать выводы, выбирая лучшее из каждой категории и темы.