Визуализация данных (сокращенно Data Viz) — это представление данных в графическом или графическом формате. Это позволяет лицам, принимающим решения, видеть идеи, представленные визуально, чтобы они могли эффективно анализировать данные или выявлять новые закономерности в данных.
Data Viz существует уже много лет. По мере того, как наука о данных становится популярной, было разработано множество библиотек, упрощающих задачу визуализации данных.
Язык Python поддерживается несколькими библиотеками Data Viz с открытым исходным кодом. Давайте посмотрим на некоторые из популярных…
Примечание. В этой серии блогов о Data Viz я буду использовать набор данных StudentPerformance.csv из Kaggle. Пожалуйста, загрузите его отсюда, чтобы опробовать приведенные ниже примеры кода.
- Numpy — Фундаментальный пакет для научных вычислений.
- Pandas — быстрый, мощный, гибкий и простой в использовании инструмент для анализа и обработки данных с открытым исходным кодом,
- Matpotlib — комплексная библиотека для создания статических, анимированных и интерактивных визуализаций.
- Сиборн. — Визуализация статистических данных
Давайте импортируем эти библиотеки в ваш код Python. Если у вас нет предустановленных библиотек, используйте !pip install ‹имя библиотеки›, чтобы установить их.
# Libraries to help with reading and manipulating data import numpy as np import pandas as pd # Libraries to help with data visualization import matplotlib.pyplot as plt import seaborn as sns # Command to tell Python to actually display the graphs %matplotlib inline # reading the CSV from the same folder df = pd.read_csv('StudentsPerformance.csv') # To display top 5 rows data with column names df.head()
В приведенном ниже фрагменте кода показаны шаги для чтения CSV-файла и просмотра образцов данных.
Ниже фрагмент кода описывает кадр данных со средним значением, стандартным отклонением и различными диапазонами.
Pandas dataframe — очень мощная библиотека для чтения наборов данных и выполнения задач, связанных с данными. В дополнение к вышеперечисленным методам ниже приведен список популярных методов pandas — проверьте его самостоятельно.
- pd.read_csv()
- df.describe()
- df.info()
- дф.участок()
- df.iloc()
- df.loc()
- дф.назначить()
- df.запрос()
- df.sort_values()
- df.sample()
- df.isnull()
- df.fillna()
- df.dropna()
- df.drop()
- pd.pivot_table()
- df.groupby()
- df.transpose ()
- df.merge()
- дф.переименовать()
- df.to_csv()
Теперь давайте поработаем над визуализацией данных с помощью библиотек Python.
Гистограмма
- Гистограмма — это одномерный график, который помогает нам понять распределение непрерывной числовой переменной.
- Он разбивает диапазон непрерывных переменных на интервалы равной длины, а затем подсчитывает количество наблюдений в каждом интервале.
- Мы будем использовать функцию histplot() программы seaborn для создания гистограмм.
Если мы хотим указать ширину интервалов (или групп, или интервалов), мы можем использовать параметр binwidth.
Как найти оптимальное количество контейнеров: эмпирическое правило
Помимо столбцов, мы также можем добавить оценку плотности, установив для параметра kde значение True.
- Оценка плотности ядра, или KDE, визуализирует распределение данных в непрерывном интервале.
- Обычная шкала для KDE: Общая частота каждого бина × Вероятность
Понятно, что если мы увеличим количество бинов, это уменьшит количество частот в каждой группе (бине). Поскольку масштаб KDE зависит от общей частоты каждого бина (группы), приведенный выше код дает нам сглаженный график KDE.
Давайте посмотрим на гистограммы еще несколько атрибутов в данных.
- Гистограмма называется симметричной, если левая и правая стороны напоминают зеркальные отражения друг друга, когда гистограмма разрезается посередине.
- Самые высокие группы столбцов, т. е. пики, на гистограмме представляют режимы данных.
- Гистограмма наклонена вправо имеет большое количество вхождений в левой части графика и несколько в правой части графика.
- Точно так же гистограмма смещена влево имеет большое количество вхождений на правой стороне графика и мало на левой стороне графика.
Как видите, гистограмма — это довольно простая диаграмма для визуализации и очень полезная диаграмма для поиска асимметрии в наборе данных.
Продолжение следует во второй части.