До настоящего времени…

Pandas - это полноценная библиотека для анализа данных с помощью Python. Первоначально он был разработан компанией под названием AQR Capital Management, но в 2009 году был открыт для общего использования.

Он быстро стал популярным инструментом для анализа данных для пользователей Python и теперь имеет огромный набор функций для извлечения данных, обработки, визуализации и анализа.

У Pandas есть много полезных методов и функций, вот десять вещей, которые вы могли не знать о библиотеке.

Pandas можно установить с помощью pip, если у вас его еще нет. Полную документацию, а также несколько отличных руководств по общему анализу данных, можно найти здесь.

pip install pandas

В статье я буду приводить примеры кода с использованием набора данных «автомобили», который состоит из множества характеристик автомобиля и соответствующего рейтинга страхового риска. Этот набор данных обычно используется в качестве задачи классификации машинного обучения, цель которой - предсказать рейтинг риска автомобиля.

Анализ данных - важный предварительный шаг перед построением модели машинного обучения.

Если у вас есть Scikit-learn, набор данных можно импортировать, используя приведенный ниже код. Как вариант, его можно скачать здесь.

1. Вы можете создавать сводные таблицы в стиле Excel.

Сводная таблица обычно считается одной из самых мощных функций Excel. Они позволяют пользователю быстро понять закономерности и особенности, содержащиеся в очень больших наборах данных, путем группировки, фильтрации и выполнения вычислений по переменным.

Библиотека Pandas содержит методы, позволяющие создавать сводные таблицы, очень похожие на те, что используются в Excel и других инструментах для работы с электронными таблицами.

В приведенном ниже коде используется сводная таблица Pandas для сравнения рейтинга страхового риска для автомобилей в зависимости от количества имеющихся у них цилиндров.

2. Функцию describe () также можно использовать для анализа нечисловых функций.

Функция pandas describe() быстро генерирует сводную описательную статистику по умолчанию только для числовых значений в наборе данных. Однако этот чрезвычайно полезный инструмент Pandas также может предоставлять сводку нечисловых столбцов, просто добавляя аргумент include=’all’.

Это очень полезно для включения такой информации, как размерность категориальных переменных, которая помогает использовать стратегии трансформации для машинного обучения.

data.describe(include='all')

3. Встроенные статистические функции

Как и Excel Pandas, включает в себя широкий спектр вычислительных инструментов для применения общих статистических методов к вашим данным. Например, корреляции между переменными в наборе данных можно быстро вычислить с помощью corr() method.

round(data.corr(),2)

4. Функции построения графиков

Pandas имеет встроенную функцию построения графиков, которая позволяет вам быстро создавать наиболее распространенные типы графиков из ваших фреймов данных, группировок или сводных таблиц.

Приведенный ниже код создает диаграмму рассеяния, сравнивающую объем двигателя и мощность в нашем фрейме данных.

data.plot.scatter(x='engine-size', y='horsepower')

Простое добавление .plot() в сводную таблицу, которую я создал ранее, дает график сводных данных.

pivot_table.plot()

5. Еще более красивые сюжеты.

По умолчанию методы построения графиков Pandas используют Matplotlib в качестве бэкэнда для визуализаций. Однако Pandas также поддерживает широкий спектр других библиотек для построения графиков Python.

Чтобы изменить серверную часть и использовать боке для визуализации, например, просто используйте следующий код.

Это дает более богатую интерактивную визуализацию.

Более подробное руководство по использованию различных бэкэндов для визуализаций Pandas см. В моей предыдущей статье ниже.



6. Инструменты для стратегии "разделить-применить-объединить".

Разделение-применение-объединение как полезная стратегия анализа данных впервые была описана в статье Хэдли Уикхэм в 2011 году. В этом документе подробно описывается общий шаблон анализа данных, при котором данные сначала разбиваются на разумные, управляемые фрагменты или сегменты, операции выполняются с каждым отдельным сегментом, а затем снова собираются вместе, чтобы сформировать сравнения.

Этот шаблон анализа данных виден в сводных таблицах, как мы описали выше, и в операторах SQL group by. В дополнение к сводным таблицам Pandas предоставляет еще один метод, использующий эту стратегию, известный как groupby().

Этот метод в одной строке кода позволяет вам разбить набор данных на сегменты, выполнить некоторые статистические вычисления или вычисления, а затем снова собрать эти сегменты вместе, чтобы сравнить их.

Следующий код сегментирует данные по уникальным значениям в целевой переменной, вычисляет среднее значение для каждого столбца и затем отображает результаты.

7. Более красивые столы со стилем.

Если вы хотите поделиться результатами анализа данных с помощью Pandas, то, скорее всего, вы захотите сделать свои таблицы данных немного красивее и проще для восприятия человеком. Pandas имеет ряд параметров стиля для управления отображением результатов во фреймах данных.

Параметры стиля могут изменить способ отображения чисел, например добавить знак% к процентной точке, контролировать количество десятичных знаков, добавить условное форматирование к результатам или выделить определенные значения.

Приведенный ниже код применяет соответствующий стиль к выбранным столбцам в нашем наборе данных. Вывод теперь намного легче читать.

8. Легко создавайте тепловую карту с помощью встроенных стилей.

В Pandas встроены некоторые общие шаблоны стилей. Вы можете использовать один из них, чтобы легко создать тепловую карту.

В приведенном ниже коде применяется форматирование тепловой карты к ранее созданным данным data_summary.

9. Используйте параметры Pandas для управления дисплеем.

У Pandas есть диапазон опций, которые вы можете установить для управления выводом ваших фреймов данных. Их можно использовать для управления такими вещами, как максимальное количество отображаемых строк или столбцов, количество десятичных знаков, используемых при отображении чисел с плавающей запятой, и формат отображения дат.

10. Добавляйте подписи к таблицам.

Существует также ряд стилей, которые можно добавить в таблицы, чтобы улучшить отображение вне данных.

Например, вы можете добавить заголовок к такой таблице.

Спасибо за прочтение!

Я отправляю ежемесячный информационный бюллетень, если вы хотите присоединиться, зарегистрируйтесь по этой ссылке. С нетерпением жду возможности принять участие в вашем образовательном путешествии!