Визуализация набора данных Telco Churn и выделение важных функций

В этом блоге мы собираемся ответить на некоторые вопросы, перечисленные ниже.
Вопросы 1) Как визуализировать набор данных?
Вопросы 2) Как выбрать важные функции?
Вопросы 3) Как сопоставить различные типы моделей с помощью SK-learn?
Вопросы 4) Как повышать и понижать выборку набора данных?
Перед тем, как начать глубокое погружение в болото, мы сначала обсудим, что набор данных Churn? Набор данных Simply Churn — это набор данных, который содержит данные о разных людях, и этот тип набора данных является несбалансированным, что означает наличие 90% одной категории и 10% остальной категории. Этот набор данных относится к телекоммуникационной компании и людям, которые собираются пользоваться услугами компании и оставили основы на приобретенных услугах.

Ссылка на набор данных: https://www.kaggle.com/blastchar/telco-customer-churn

Совместная работа Googlecolab.research.google.com

Импорт важных библиотек и чтение CSV-файла с помощью pandas и сохранение его в переменной данных.

Давайте посмотрим, как выглядит наш набор данных. Он содержит 21 столбец и 7043 строки.

Информация о нашем наборе данных упоминается ниже, что столбцы относятся к какому типу данных.

Ниже показано, сколько строк, столбцов, количество объектов и есть ли в наборе данных отсутствующее значение, и, наконец, мы увидим, какие уникальные значения присутствуют в каждом столбце.

Таким образом, мы ясно говорим, что в каждом столбце отсутствуют значения. Удалив отсутствующее значение из общих расходов, значения NaN присутствуют там в наборе данных путем замены значения с использованием регрессии.

Давайте начнем визуализировать набор данных с помощью библиотеки Matplotlib и визуализировать некоторые столбцы набора данных и посмотреть, насколько наш набор данных разделен на уникальные категории и какой процент из них

Здесь мы смотрим, как соотносится каждый столбец:

Описание набора данных показано ниже, и это описание основано только на числовых данных:

Теперь, используя тепловую карту, можно визуализировать, как числовое значение, содержащее значения, коррелирует друг с другом.

Теперь изменение типа данных столбцов с объекта на числовой тип данных. А также выполняет однократное кодирование и кодирование меток для столбцов набора данных, который содержит категориальные данные.

Снова посмотрите, что такое тип данных столбцов, что есть столбцы, содержащие объект, категориальный и плавающий, а затем теперь преобразуйте эти данные только в числовую форму.

Создание фиктивных переменных путем одноразового кодирования. Удаление бесполезных столбцов, которые не влияют на нашу классификацию.

Теперь вы можете ясно видеть, что все типы данных столбцов изменены, кроме идентификатора столбца, потому что мы используем его в качестве значения индекса.

Апсэмплинг и даунсэмплинг перемешанного набора данных с использованием для него библиотеки SK-learn.

Я применил дерево решений логистической регрессии, и в последнем случайном лесу вы можете видеть, что мы все еще достигаем точности 75%, что не так уж хорошо. Для случайного леса я использовал только самую полезную функцию, которая влияет на классификацию.

Калаш Джиндал

Источники:

Обработка несбалансированных классов с помощью повышения частоты дискретизации
Как обрабатывать несбалансированные классы с повышением частоты дискретизации во время машинного обучения в Python.chrisalbon.com

Отток клиентов телекоммуникационных компаний
Специализированные программы удержания клиентовwww.kaggle.com

sklearn.linear_model.LogisticRegression — документация scikit-learn 0.23.2
Классификатор логистической регрессии (он же logit, MaxEnt). В случае с несколькими классами алгоритм обучения использует алгоритм «один против остальных…scikit-learn.org

sklearn.tree.DecisionTreeClassifier — документация scikit-learn 0.23.2
класс sklearn.tree. DecisionTreeClassifier(*, критерий='gini', splitter='best', max_depth=None, min_samples_split=2…scikit-learn.org

3.2.4.3.1. sklearn.ensemble.RandomForestClassifier — документация scikit-learn 0.23.2
класс sklearn.ensemble. RandomForestClassifier(n_estimators=100, *, критерий='gini', max_depth=None…scikit-learn.org

Визуализация набора данных Telco Churn и выделение важных функций

Вопросы по теме