Универсальный пакет для вашего процесса анализа данных

Подготовка данных — это первый шаг, который делает любой специалист по данным. Независимо от того, хотите ли вы проанализировать данные или предварительно обработать данные для модели машинного обучения, вам необходимо подготовить данные.

Подготовка данных означает, что вам необходимо собрать, очистить и изучить данные. Для выполнения всех действий, которые я упомянул, разработан пакет Python под названием DataPrep. Как этот пакет поможет нам? Давайте исследовать его вместе.

Подготовка данных

DataPrep — это пакет Python, разработанный для подготовки ваших данных. Этот пакет содержит три основных API, которые мы можем использовать:

  • Исследование данных ( dataprep.eda )
  • Очистка данных( dataprep.clean )
  • Сбор данных ( dataprep.connector )

Пакеты DataPrep предназначены для быстрого исследования данных и хорошо работают с объектами Pandas и Dask DataFrame. Чтобы изучить возможности DataPrep, нам нужно сначала установить пакет.

pip install -U dataprep

После того, как мы закончим установку пакета, давайте воспользуемся API для подготовки наших данных.

Исследование подготовки данных

DataPrep предлагает нам создать интерактивный профильный отчет с помощью одной строки кода. Этот объект отчета представляет собой объект HTML, отделенный от нашего Блокнота, с множеством вариантов исследования. Давайте попробуем API с демонстрационными данными.

from dataprep.datasets import load_dataset
from dataprep.eda import create_report
df = load_dataset("titanic")
df.head()

Мы будем использовать образец набора данных Titanic для наших данных. После того, как мы загрузим наши данные, мы будем использовать функцию create_report для создания интерактивного отчета.

create_report(df).show_browser()

Как мы можем видеть в GIF выше, API создает хороший интерактивный отчет для изучения. Попробуем разобрать информацию по порядку.

На вкладке обзора мы можем увидеть всю обзорную информацию из нашего набора данных. Информация, которую мы могли бы получить, включала отсутствующие числа и проценты данных, повторяющиеся данные, тип данных переменной и подробную информацию для каждой переменной.

Вкладка переменных дает нам подробную информацию для каждой переменной в нашем наборе данных. Доступна почти вся необходимая информация, например, уникальные данные, отсутствующие данные, квантильная и описательная статистика, распределение и нормальность.

Вкладка взаимодействий создаст точечную диаграмму из двух числовых переменных. Мы могли бы сами установить ось X и ось Y, что дает нам контроль над тем, как мы хотим их визуализировать.

Вкладка корреляции дает нам график тепловой карты расчета статистической корреляции между числовыми значениями. В настоящее время мы можем использовать три вычисления — Пирсона, Спирмена и Кендалл-Тау.

Вкладка «Отсутствующие значения» дает нам всю подробную информацию об отсутствующих значениях на нашей вкладке. Мы могли бы выбрать столбчатую диаграмму, спектр, тепловую карту и дендрограмму, чтобы полностью изучить информацию об отсутствующих значениях.

Очистка данных

Коллекция DataPrep Cleaning API предлагает более 140 API для очистки и проверки нашего DataFrame. Например, API, которые мы можем использовать:

И многое другое. Есть так много функций, которые мы могли бы попробовать, и эта статья не смогла бы охватить все API. Если вам интересно, вы можете ознакомиться с документацией здесь.

Давайте попробуем функцию очистки Заголовков столбцов на нашем примере набора данных Titanic.

from dataprep.clean import clean_headers
clean_headers(df, case = 'const').head()

Используя случай «Const», мы получим все имена столбцов с заглавной буквы. Если мы переключим дело на «Верблюд».

clean_headers(df, case = 'camel').head()

Результатом является имя всех нижних столбцов, кроме столбца «sibSp», где в имени столбца есть два слова.

Если вы хотите иметь полностью чистый DataFrame, мы могли бы использовать clean_df API от DataPrep. Этот API будет иметь два вывода — предполагаемый тип данных и очищенный DataFrame.

from dataprep.clean import clean_df
inferred_dtypes, cleaned_df = clean_df(df)

Есть много параметров, с которыми вы можете поиграться с API. Я предлагаю вам прочитать всю документацию, чтобы увидеть, какие параметры подходят для ваших целей подготовки данных.

Коллекция DataPrep

API-интерфейсы DataPrep Collection используются для сбора данных из базы данных или веб-API. Если у нас есть доступ к базе данных, такой как MySQL или PostgreSQL, вы можете подключить ее с помощью DataPrep API, но также можно получить доступ к общедоступному API с помощью DataPrep connect API.

Если вы хотите собирать данные из Интернета, вам все равно понадобится код API, но все упрощено. Если вы хотите узнать больше об API коллекций, вы можете прочитать все это здесь.

Заключение

DataPrep — это однострочный пакет Python, используемый для очистки, подключения и изучения имеющегося у вас набора данных. Возможности включают в себя:

  • Исследование данных ( dataprep.eda )
  • Очистка данных (dataprep.clean)
  • Сбор данных ( dataprep.connector )

Я надеюсь, что это помогает!

Посетите меня в моем LinkedIn или Twitter.

Если вам нравится мой контент и вы хотите получить более глубокие знания о данных или просто о повседневной жизни Data Scientist, рассмотрите возможность подписки на мою информационную рассылку здесь.

Если вы не подписаны как участник Medium, рассмотрите возможность подписки через моего реферала.