›› Начало работы с EDA на pandas df с использованием пользовательского интерфейса bamboolib

В этой статье я сосредоточусь в основном на анализе и визуализации данных с помощью bamboolib. Пользовательский интерфейс bamboolib - это самый быстрый и простой способ работы с фреймами данных pandas.

Перед введением пользовательского интерфейса bamboolib я хотел бы указать на тот факт, почему анализ и визуализация данных являются важными факторами перед применением методов машинного обучения. Выполняя исследовательский анализ данных (EDA), мы можем анализировать тенденции и закономерности в данных, а не искать тысячи строк.

Выполняя исследовательский анализ данных (EDA), мы можем анализировать тенденции и закономерности в данных, а не искать тысячи строк.

Pandas - это самая мощная и гибкая библиотека, которая предоставляет обширные средства для анализа данных. Как специалист по данным, я часто использую библиотеку pandas, чтобы начать работу с EDA. Есть много операций, которые мы можем выполнить с данными наборами данных. Проблема, возникающая при поиске определенных команд или операций через Google и, в частности, переполнении стека, может привести к ненужным затратам времени. Несмотря на доступность множества решений в Интернете, мы, как правило, выбираем те, которые подходят идеально, но часто заканчиваем тем, что пишем с нуля.

Что, если я скажу, что вашу жизнь можно упростить, инструмент, который может выполнять операции на основе данных с помощью интерактивного пользовательского интерфейса. Добавление вишенки наверху инструмента, который мог бы экспортировать код для всех операций с интегрированным пользовательским интерфейсом. ну сиди спокойно !!

Приступим: для анализа мы будем использовать данные об оттоке клиентов в телекоммуникационной отрасли. Набор данных интересно изучить, поскольку он отвечает на такие вопросы, как: какие переменные влияют на отток клиентов? или кого клиенты с большей вероятностью уйдут? (получить данные здесь)

import pandas as pd
df = pd.read_csv('telecom_churn.csv')

bamboolib помогает с обработкой данных и исследованием данных с помощью pandas.

bamboolib добавляет интерактивный пользовательский интерфейс к выходным данным pandas, который позволяет нам быстро подготовить и визуализировать наборы данных.

Установка

Чтобы установить bamboolib для Jupyter Notebook или Jupyter Lab, выполните следующие команды в терминале (интеграция с colab в процессе):

Примечание. Настоятельно рекомендуется использовать виртуальную среду, чтобы избежать конфликтов с другими пакетами.

Первоначально услуга должна быть активирована с указанным адресом электронной почты и ключом. Пробный ключ, действительный в течение 14 дней, будет отправлен на подписанный адрес электронной почты.

Хорошо! Теперь просто импортируйте бамбулиб в блокнот, и все готово.

Пакет bamboolib предоставляет ключевые преимущества для подготовки, преобразования, визуализации и исследования данных. Визуализация данных может выполняться как для всего фрейма данных, так и для отдельных столбцов.

Инструмент может обрабатывать до 1 миллиона строк данных и 100 столбцов.

Пользовательский интерфейс включает в себя наиболее распространенные и полезные операции с преобразователем:

  • Выберите или отпустите столбцы
  • Значения фильтров
  • Сортировка
  • Группировка и агрегирование
  • Присоединение или объединение фреймов данных
  • Изменить типы данных
  • Заменить отсутствующие значения
  • Строковые манипуляции
  • Извлечь атрибуты даты и времени
  • Быстрое кодирование и многое другое ..

Действие UI «создать график» позволяет создавать интерактивные диаграммы, например,

  • Барный участок
  • Линейный сюжет
  • Диаграмма разброса
  • Коробчатый сюжет
  • Тепловая карта плотности
  • Точечный и линейный график в 3D
  • Матрица разброса и т. Д.

Это также позволяет нам сохранять визуализации и настраивать их, меняя столбцы.

Функция «изучить фрейм данных» помогает нам анализировать фрейм данных более подробно и в интерактивном режиме. В нашем случае мы можем легко создать двухвариантные графики для целевой переменной («отток»), и по предикторам мы можем найти важные и влияние каждой функции на целевую переменную. Как видно на следующем изображении, мы замечаем, что «ежемесячная оплата» тарифных планов оказывает большее влияние на отток клиентов, который полностью определяется решениями. Мы также можем проанализировать график прогнозирующей мощности.

Кроме того, мы можем сразу создать корреляционную матрицу без каких-либо препятствий. Когда мы выбираем конкретный признак в корреляционной матрице, это также позволяет нам копнуть глубже для проверки взаимосвязи признаков.

вдохновение / мотивация

  • гибкая интеграция
  • экономит много времени, чтобы избежать поиска команд
  • ускоряет исследование данных
  • функция экспорта живого кода

Думаю, я дал вам несколько довольно веских причин для начала использования бамбулиба или, по крайней мере, мотивацию попробовать этот удивительный инструмент!

Огромный привет создателям команды bamboolib.

Спасибо, что прочитали эту статью, надеюсь, она была для вас полезной!