Это проект прогнозирования оттока клиентов.

Введение

Исчезновение или отток клиентов — это огромные расходы для организаций. Отток клиентов — это процент клиентов, которые перестали использовать продукт или услугу компании в течение определенного периода времени. Для любой организации становится кошмаром узнать, что количество клиентов, с которыми они начали год, сократилось. На самом деле цель состоит в том, чтобы увеличить продажи за счет увеличения числа клиентов, покупающих организацию. Если происходит обратное, это становится нервным, поскольку гораздо труднее получить новых клиентов.

Чтобы понять это явление, необходим анализ для выявления факторов, влияющих на отток клиентов, при этом постоянно отслеживая количество оттоков и находя способы минимизировать это число, поскольку отток клиентов может быть трудно полностью искоренить.

В этом проекте мы проанализировали набор данных телекоммуникационных компаний, чтобы оценить возможность оттока клиентов, ключевые индикаторы оттока и некоторые стратегии, которые можно реализовать для удержания клиентов.

На протяжении всего анализа использовалась структура CRISP-DM.

Гипотеза и вопросы

Нулевая гипотеза — на способность взбивать влияет цена. Альтернативная гипотеза — способность взбивать не зависит от цены.

Вопросы

Факторы, влияющие на взбалтывание?

Связаны ли более высокие цены с потоковыми фильмами?

Какая техническая поддержка имеет более высокие цены на оплату?

Какой способ оплаты самый популярный?

Очистка данных

У данных, о которых идет речь, не было дубликатов и непосредственно видимых отсутствующих данных, потому что различные столбцы не были в правильном типе данных. Подробная информация о столбцах приведена ниже.

Пол — является ли покупатель мужчиной или женщиной.

SeniorCitizen — является ли клиент пожилым гражданином или нет.

Партнер — есть ли у клиента партнер или нет (Да, Нет).

Иждивенцы — есть ли у клиента иждивенцы или нет (Да, Нет).

Стаж — количество месяцев, в течение которых клиент оставался в компании.

Телефонная служба — есть ли у клиента телефонная служба или нет (да, нет).

MultipleLines — имеет ли клиент несколько линий или нет.

InternetService — Интернет-провайдер Заказчика (DSL, Fiber Optic, No).

OnlineSecurity — есть ли у клиента онлайн-защита или нет (Да, Нет, Нет Интернета).

OnlineBackup — есть ли у клиента онлайн-резервное копирование или нет (Да, Нет, Нет Интернета).

DeviceProtection — есть ли у клиента защита устройства или нет (да, нет, нет интернет-сервиса).

TechSupport — есть ли у клиента техподдержка или нет (да, нет, нет интернета).

StreamingTV — есть ли у клиента потоковое телевидение или нет (да, нет, нет интернет-сервиса).

StreamingMovies — есть ли у клиента потоковое воспроизведение фильмов или нет (Да, Нет, Нет интернет-сервиса).

Контракт — срок контракта клиента (Месяц в месяц, Один год, Два года).

PaperlessBilling — есть ли у клиента безбумажный биллинг или нет (Да, Нет).

Способ оплаты — способ оплаты клиента (электронный чек, чек по почте, банковский перевод (автоматический), кредитная карта (автоматический)).

MonthlyCharges — сумма, взимаемая с клиента ежемесячно.

TotalCharges — общая сумма, списанная с клиента.

Отток — ушел ли клиент или нет (да или нет).

После преобразования типа данных все пропущенные значения были видны и заменены медианными значениями.

Исследовательский анализ данных

По нашим данным, уходит менее 30% клиентов. Хотя это может показаться средним, это большая потеря дохода.

Согласно анализу, более высокие цены были связаны с просмотром фильмов в потоковом режиме и с подпиской на все телефонные и интернет-услуги. Кроме того, самым популярным способом оплаты были электронные чеки.

Когда дело доходит до оттока, на отток влияют такие факторы, как тип контракта, статус отношений и возрастная категория. Люди с ежемесячным контрактом имели больше шансов уйти, как и пожилые люди (по данным, 41% пожилых людей ушли). Кроме того, люди с партнерами меньше теряют.

Как правило, долгосрочные контракты с телекоммуникационными компаниями трудно расторгнуть, поскольку они всегда влекут за собой штрафы, в то время как краткосрочные контракты, такие как ежемесячные контракты, расторгнуть легче, следовательно, клиентам легче уйти. Интересно, что наши данные подтверждают это явление. Кроме того, пожилые люди не так увлечены технологиями, которые, как известно, используют много Интернета, поэтому пожилым людям легче уходить, чем молодому поколению.

Разработка функций

Первоначально некоторые столбцы были спроектированы таким образом, чтобы уменьшить общее количество столбцов. Однако после моделирования показатели оценки моделей были ниже, поэтому в стремлении улучшить модели не было разработано ни одного столбца, чтобы помочь процессу моделирования.

Кодирование и масштабирование

Для кодирования признаков использовались кодировщики label и onehot. Кодировщик меток использовался для кодирования оттока зависимой переменной, а однократный кодировщик — для категориальных столбцов. Остальные числовые столбцы были масштабированы с использованием стандартного масштабатора, чтобы привести все переменные к одному масштабу.

Показатели моделирования и оценки

После подготовки данных обработанные данные были разделены на обучающую и оценочную выборки.

После этого пять моделей были обучены и спрогнозированы на оценочном наборе. Пять показателей оценки использовались для оценки различных обученных моделей. К сожалению, наша зависимая переменная имела дисбаланс классов, поэтому нашими окончательными метриками оценки были оценка f1 и fbeta, а не точность, точность и полнота. Основываясь на метриках, наиболее эффективной моделью был классификатор логистической регрессии.

Настройка гиперпараметров.

Чтобы подтвердить нашу самую эффективную модель, некоторые параметры были настроены для повышения производительности моделей с использованием GridCV и поисковика. После настройки гиперпараметра логистический регрессор по-прежнему работал лучше.

Ссылка на GitHub

Найдите прикрепленную ссылку на мой GitHub для полного анализа, https://github.com/Norkplim22/Classification-Project.git.