Сэкономьте часы работы, выполнив полный EDA с помощью нескольких строк кода

Сэкономьте часы работы, выполнив полный EDA с помощью нескольких строк кода с помощью этой библиотеки

Узнайте, как использовать QuickDA для вашего следующего проекта и сэкономить часы работы

Независимо от того, являетесь ли вы аналитиком данных или ученым, вы слышали, что профессионалы тратят 80% своего времени на очистку данных и только 20% на моделирование. Это правда, что очистка данных и исследовательский анализ данных требуют выполнения нескольких шагов, и помните, что весь код требует большой практики. Например, простая визуализация данных требует минимум трех строк кода, чтобы быть минимально презентабельными. Однако что, если я скажу вам, что есть способ резко сократить время, затрачиваемое на EDA? Вот тогда и может пригодиться QuickDA.

QuickDA - это простая в использовании, интуитивно понятная библиотека с низким кодом, которая позволяет выполнять очистку данных, исследование данных и визуализацию данных с помощью нескольких строк кода. Фактически, большую часть времени мы будем использовать только одну строку кода. Я создал небольшой проект, чтобы продемонстрировать, насколько мощной может быть QuickDa. Вы можете найти блокнот здесь.

Начало работы

Самый простой способ установить QuickDA - это ввести pip3 install quickda в ваш терминал, и это почти все. Вы можете использовать git close, скопировав и вставив git clone https://github.com/sid-the-coder/QuickDA.git в свой терминал. А теперь давайте исследуем эту удивительную библиотеку.

Для этого проекта я буду использовать только нашего старого друга Pandas и QuickDA. NumPy, Matplotlib, Seaborn не нужны. Для QuickDA я буду использовать следующие библиотеки:

# Importing libraries
import pandas as pd
from quickda.explore_data import *
from quickda.clean_data import *
from quickda.explore_numeric import *
from quickda.explore_categoric import *
from quickda.explore_numeric_categoric import *
from quickda.explore_time_series import *

Я буду использовать loans.csv. Вы можете найти набор данных в моем GitHub. Мне не удалось найти исходный источник, поэтому, если вы его найдете, дайте мне знать, чтобы я мог добавить кредиты.

# Importing dataset
df = pd.read_csv(‘loans.csv’)

Суммировать набор данных

Теперь мы начнем видеть всю мощь QuickDA. Во-первых, мы можем суммировать наш набор данных с помощью кода explore(df) и получить типы данных, количество, нулевые значения, количество уникальных значений и описательную статистику, такую как минимум, максимум, среднее и медианное значение. Обратите внимание, что QuickDA также может суммировать статистику для категориальных данных. Это невозможно с обычной функцией df.describe(). Давайте проверим и исследуем эту функцию, потому что она может быть мощной.

Это было просто. На мой взгляд, только эта сводная таблица стоит того, чтобы попробовать библиотеку. Также есть косой столбик. В этом столбце отображается асимметрия элемента. Я никогда не использовал его при анализе данных, потому что проверяю это посредством визуализации данных. Однако приятно иметь. Как мы видим, explore(df) может вернуть много важной информации и избавить нас от ввода таких вещей, как df.dtypes, df.info, df.isnull.sum(), df.nunique(), df.skew() и df.describe(). Самое приятное то, что все организовано в одном фрейме данных. Потрясающие!

Еще не убедили? Не беспокойтесь об этом! QuickDA может предложить больше.

Мы также можем получить более наглядное обобщение данных. Добавив параметр method = profile, QuickDA сгенерирует HTML-файл, который суммирует все столбцы и дает нам представление о наборе данных. Вы можете добавить имя в свой отчет, добавив report_name = 'Name of the Report'. Давайте исследуем эту функцию.

# Summarize dataset
explore(df, method=’profile’, report_name=’Loan Dataset Report’)

Это много информации. Вы можете получить дополнительную информацию об этой функции, нажав Toggle details. Он откроет описательную статистическую информацию о наборе данных, общих значениях и даже визуализацию функций. В приведенном ниже примере мы видим гистограмму, но это будет зависеть от типа имеющихся у вас данных. Давайте ненадолго остановимся на этой удивительной функции, потому что здесь есть что исследовать. Вы также можете перемещаться по таблице с помощью панели навигации вверху.

Как я уже упоминал, вы получаете много описательной статистической информации и лучший обзор функций. Он показывает, какой процент объекта содержит отдельные, отсутствующие и бесконечные значения. Бесконечные значения не работают с большинством алгоритмов моделирования. Информация о квантильной статистике присутствует и включает, например, диапазон. В приведенной ниже таблице должно быть ПО МИНИМУМУ десять строк кода.

Щелкнув Histogram, вы получите визуализацию функции. Выглядит достаточно хорошо, чтобы представить его в профессиональном отчете.

Еще одна интересная вещь - вы можете видеть предупреждения набора данных. Он показывает, например, высокую мощность, высокую корреляцию, пропущенные значения, равномерно распределенные значения и процент нулей в наборе данных. Это очень поможет в принятии решений, связанных с проектом. Классно, правда?

Мы рассмотрим эти визуализации данных немного позже, но я хочу упомянуть, что вы можете получить красивую визуализацию для корреляции. Вы можете видеть, что xticks были отредактированы - очень приятный штрих.

Очистка данных

Давайте немного переключимся и проверим возможности QuickDA по очистке данных. Некоторые из этих функций можно быстро выполнить с помощью Pandas. Однако я также хочу показать решения QuickDA.

Стандартизируйте имена столбцов

Каждый, кто провел несколько исследовательских анализов данных, видел наборы данных с именами столбцов в разных форматах. Иногда имена пишутся с заглавной буквы или с пробелами. Мы можем легко решить эту проблему, набрав df = clean(df, method='standardize'). В этой строке кода имена столбцов будут строчными, а при наличии пробелов добавится подчеркивание (_). Код выглядит следующим образом:

# Standardize column names
df_name = clean(data, method='standardize')

Удаление столбцов

Вы также можете отбросить столбцы. Я не вижу никаких преимуществ по сравнению с обычной функцией Pandas .drop(). Однако, если вы хотите стандартизировать свой код, используя только QuickDA, у вас есть еще один вариант.

# Drop columns
df_name = clean(data, method='dropcols', columns=[column_names])

Удаление повторяющихся значений

В этом наборе данных нет повторяющихся значений. Таким образом, мы не увидим никаких различий при применении этой строчки кода.

# Removing duplicates
df_name = clean(data, method='duplicates')

Переименование значений

Мы также можем легко заменить значения в столбцах с помощью QuickDA. В Pandas есть функция .replace(), которую также легко использовать. Однако QuickDA также очень проста в использовании. В этом случае я заменю значения Source Verified на Verified.

clean(data, method="replaceval", 
 columns=[], to_replace="value to be replaced", value="new value")

Заполните отсутствующие значения

Отсутствуют значения? Нет проблем, QuickDA также может справиться с этим с помощью интерполяции. Интерполяция - это оценка значения в пределах двух известных значений в последовательности значений. Для этого вы можете использовать следующий код:

df_name = clean(data, method='fillmissing')

Удалить выбросы

Спорный вопрос, когда следует удалять выбросы. Иногда данные неверны, а иногда важны выбросы для понимания всех сценариев. Тем не менее, если вы решите, что выбросы не важны, вы можете удалить их с помощью следующего кода:

df_name = clean(data, method='outliers', columns=[column_names])

Вы можете выбрать, в каких столбцах вы хотите удалить выбросы. Если вы не выберете столбец, QuickDA удалит выбросы из всех столбцов.

Продолжение следует

Мы только что увидели много интересной информации, и есть еще много чего вам показать. Однако этот блог становился слишком длинным. По этой причине я напишу вторую часть, где покажу вам гораздо больше интересных вещей, которые мы можем делать с QuickDA. Например, как с его помощью создавать визуализации данных. Следите за обновлениями, и я опубликую его в ближайшие дни.

Обновление: как и обещал, я написал второй блог, посвященный визуализации данных. Вы можете найти его здесь: Как создать визуализацию данных в Python с помощью одной строки кода

Последние мысли

QuickDA - одна из самых невероятных библиотек Python, которые я когда-либо видел. Обычно, когда я пробую новые библиотеки, бывают взлеты и падения. Однако у меня остались только положительные впечатления от QuickDA. Это просто работает, и стоит попробовать на все 100%. Я настоятельно рекомендую вам попробовать это с вашим собственным набором данных и почувствовать магию. Я обещаю вам, что вы сэкономите часы. Вы можете найти код в этом блоге и многое другое в этой записной книжке.

Ваше мнение очень важно для меня. Дай мне знать, как дела. Я могу дождаться, чтобы увидеть, как вы будете использовать эту фантастическую библиотеку. Удачного кодирования!

Сэкономьте часы работы, выполнив полный EDA с помощью нескольких строк кода