Визуализация данных (сокращенно Data Viz) — это представление данных в графическом или графическом формате. Это позволяет лицам, принимающим решения, видеть идеи, представленные визуально, чтобы они могли эффективно анализировать данные или выявлять новые закономерности в данных.

Data Viz существует уже много лет. По мере того, как наука о данных становится популярной, было разработано множество библиотек, упрощающих задачу визуализации данных.

Язык Python поддерживается несколькими библиотеками Data Viz с открытым исходным кодом. Давайте посмотрим на некоторые из популярных…

Примечание. В этой серии блогов о Data Viz я буду использовать набор данных StudentPerformance.csv из Kaggle. Пожалуйста, загрузите его отсюда, чтобы опробовать приведенные ниже примеры кода.

  1. Numpy — Фундаментальный пакет для научных вычислений.
  2. Pandas — быстрый, мощный, гибкий и простой в использовании инструмент для анализа и обработки данных с открытым исходным кодом,
  3. Matpotlib — комплексная библиотека для создания статических, анимированных и интерактивных визуализаций.
  4. Сиборн. — Визуализация статистических данных

Давайте импортируем эти библиотеки в ваш код Python. Если у вас нет предустановленных библиотек, используйте !pip install ‹имя библиотеки›, чтобы установить их.

# Libraries to help with reading and manipulating data
import numpy as np
import pandas as pd

# Libraries to help with data visualization
import matplotlib.pyplot as plt
import seaborn as sns

# Command to tell Python to actually display the graphs
%matplotlib inline

# reading the CSV from the same folder
df = pd.read_csv('StudentsPerformance.csv')  
# To display top 5 rows data with column names
df.head() 

В приведенном ниже фрагменте кода показаны шаги для чтения CSV-файла и просмотра образцов данных.

Ниже фрагмент кода описывает кадр данных со средним значением, стандартным отклонением и различными диапазонами.

Pandas dataframe — очень мощная библиотека для чтения наборов данных и выполнения задач, связанных с данными. В дополнение к вышеперечисленным методам ниже приведен список популярных методов pandas — проверьте его самостоятельно.

  1. pd.read_csv()
  2. df.describe()
  3. df.info()
  4. дф.участок()
  5. df.iloc()
  6. df.loc()
  7. дф.назначить()
  8. df.запрос()
  9. df.sort_values()
  10. df.sample()
  11. df.isnull()
  12. df.fillna()
  13. df.dropna()
  14. df.drop()
  15. pd.pivot_table()
  16. df.groupby()
  17. df.transpose ()
  18. df.merge()
  19. дф.переименовать()
  20. df.to_csv()

Теперь давайте поработаем над визуализацией данных с помощью библиотек Python.

Гистограмма

  • Гистограмма — это одномерный график, который помогает нам понять распределение непрерывной числовой переменной.
  • Он разбивает диапазон непрерывных переменных на интервалы равной длины, а затем подсчитывает количество наблюдений в каждом интервале.
  • Мы будем использовать функцию histplot() программы seaborn для создания гистограмм.

Если мы хотим указать ширину интервалов (или групп, или интервалов), мы можем использовать параметр binwidth.

Как найти оптимальное количество контейнеров: эмпирическое правило

Помимо столбцов, мы также можем добавить оценку плотности, установив для параметра kde значение True.

  • Оценка плотности ядра, или KDE, визуализирует распределение данных в непрерывном интервале.
  • Обычная шкала для KDE: Общая частота каждого бина × Вероятность

Понятно, что если мы увеличим количество бинов, это уменьшит количество частот в каждой группе (бине). Поскольку масштаб KDE зависит от общей частоты каждого бина (группы), приведенный выше код дает нам сглаженный график KDE.

Давайте посмотрим на гистограммы еще несколько атрибутов в данных.

  • Гистограмма называется симметричной, если левая и правая стороны напоминают зеркальные отражения друг друга, когда гистограмма разрезается посередине.
  • Самые высокие группы столбцов, т. е. пики, на гистограмме представляют режимы данных.
  • Гистограмма наклонена вправо имеет большое количество вхождений в левой части графика и несколько в правой части графика.
  • Точно так же гистограмма смещена влево имеет большое количество вхождений на правой стороне графика и мало на левой стороне графика.

Как видите, гистограмма — это довольно простая диаграмма для визуализации и очень полезная диаграмма для поиска асимметрии в наборе данных.

Продолжение следует во второй части.