Профилирование Pandas для ускорения исследовательского анализа данных

Приветствую всех читателей!

Исследовательский анализ данных (EDA) действительно является первым и одним из самых важных шагов для всех специалистов по данным. Без EDA модель сложно представить. Во-первых, я хотел бы одной строкой рассказать о том, что такое EDA. EDA дает нам больше информации о данных, таких как пропущенные значения, дубликаты, количество, среднее значение, медиана, квантили, распределение данных, корреляция переменных друг с другом, тип и т. Д. Что ж, у нас уже есть много хороших пакетов, таких как описать ( ), info (), isnull () и т. д., что дает точный анализ наших данных. Иногда это может заставить нас слишком много писать, а также требует времени. Может возникнуть вопрос: «Разве у нас нет лучшего и более быстрого способа EDA за очень короткое время?» И ответ - «Да, мы знаем». Существует пакет под названием «Профилирование Pandas», с помощью которого мы можем выполнять большой анализ с помощью всего лишь одной строки кода. Он возвращает отчет в интерактивном формате HTML, в котором довольно легко получить доступ и проанализировать данные.

Установка Pandas Profiling:

Установка с помощью пакета pip

pip install pandas-profiling

Установка с пакетом conda

conda install -c conda-forge pandas-profiling

Начало работы с профилированием Pandas:

Профилирование Pandas обеспечивает анализ типа, уникальных значений, пропущенных значений, квантильной статистики, среднего, режима, медианы, стандартного отклонения, суммы, асимметрии, частых значений, гистограмм, корреляции между переменными, количества, визуализации тепловой карты и т. Д. Начнем с того, как использовать профилирование pandas для ускорения EDA за очень короткое время и с помощью всего лишь однострочного кода.

Я рассматриваю набор данных Бостона для изучения / анализа данных. Импорт данных с помощью следующего кода.

Ниже приведен код для запуска pandas_profiling нашего фрейма данных, который возвращает отчет о профилировании Pandas.

Ссылаясь на изображение выше, мы можем увидеть такие разделы, как «Обзор», «Переменные», «Корреляции», «Недостающие значения», «Образец». Мы можем напрямую перейти к нужному разделу, щелкнув вкладку раздела. Пойдем по очереди и посмотрим, какой анализ мы можем провести.

Мы рассмотрим следующие разделы:

Обзор
Переменные
Корреляции
Отсутствующие значения
Образец

1. Обзорный раздел:

В разделе обзора представлена общая информация о наборе данных. В этом разделе есть 2 подраздела, а именно «Информация о наборе данных» и «Типы переменных».

Подраздел Информация о наборе данных отображает несколько переменных (столбцов), несколько наблюдений (строк), отсутствующие ячейки, повторяющиеся строки, общий размер и т. д.

Подраздел Типы переменных отображает типы функций, такие как количество функций числового типа, количество функций категориального типа, логическое значение, дата, URL, текст (уникальный), отклоненные, неподдерживаемые. Кроме того, он даже отображает «Предупреждения», где указывает, какие функции сильно коррелированы с другими, а максимальный процент нулей.

2. Раздел переменных:

Раздел переменных предоставляет информацию о каждой функции в отдельности, в отличие от разделов обзора, которые предоставляют информацию обо всем наборе данных. Он предоставляет такую информацию, как уникальные точки и их процент; недостающие значения и их процент. Кроме того, как мы видим справа, он дает минимальное и максимальное значения, а также процент нулей в этой функции.

Если мы нажмем на кнопку Переключить детали, как показано на изображении выше, появится новый раздел. Обратитесь к изображению ниже, чтобы узнать о новом разделе (Переключить детали).

Подраздел Переключить подробности отображает квантильную статистику, которая предоставляет подробную информацию, такую как среднее значение, медиана, процентили, межквартильный размах и т. д. Описательная статистика предоставляет такие подробности, как асимметрия, дисперсия, коэффициент вариации и т. д. Также мы видим, что есть еще 3 вкладки, а именно: Гистограмма, Общие значения и Экстремальные значения .

Гистограмма позволяет визуализировать частоту появления функции.

Общие значения показывает количество и процентную частоту функций.

Экстремальные значения показывают 5 лучших минимальных и максимальных значений, а также процентную частоту функций.

Последний, но тем не менее важный. В разделе Переменные также приведены подробные сведения о том, какие функции сильно коррелированы друг с другом, а также значение корреляции. См. Изображение выше (сведения о корреляции).

3. Раздел корреляции

Раздел корреляции предоставляет визуализацию того, как объекты соотносятся друг с другом, с тепловой картой seaborn. У нас может быть четкое и легкое понимание того, как функции соотносятся друг с другом. Ссылаясь на выделение на изображении выше (раздел "Корреляция"), мы можем легко переключаться между различными корреляциями, такими как Пирсон, Спирмен, Кендалл и phik.

4. Раздел "Отсутствующие значения"

В этом разделе представлены два графика: «Матрица» и «Счетчик».

В матричном графике мы можем визуализировать пропущенные значения. Из левого графика можно сделать вывод, что пропущенных значений нет.

На графике Количество мы можем визуализировать количество точек данных в каждой функции. Из левого графика мы можем сделать вывод, что все функции имеют одинаковое количество точек данных.

5. Образец раздела:

В этом разделе отображаются первые 10 точек данных (верхняя часть из 10) и нижние 10 точек данных (хвост из 10).

Спасибо, что прочитали этот блог. Я надеюсь, что встроенный пакет ‘Pandas Profiling’, безусловно, поможет получить более быстрый и простой анализ данных.

Предложения приветствуются!

Ссылка: https://pypi.org/project/pandas-profiling/

📝 Прочтите этот рассказ позже в Журнале.

👩‍💻 Просыпайтесь каждое воскресное утро и слушайте самые интересные истории из области технологий, ожидающие вас в вашем почтовом ящике. Прочтите информационный бюллетень« Примечательно в технологиях .