Простая визуализация данных

Наука о данных - это искусство рассказывания историй, поскольку это способ объяснить людям, насколько красивы и полезны данные, тем, кто не осведомлен о данных, преобразовав их в некоторую понятную форму. Итак, визуализация данных - один из самых сильных инструментов или, скажем, шагов в Data Science для перевода данных в форму, понятную каждому.

Этот пост предназначен для новичков, которые только начали с визуализации данных для EDA.

Что такое визуализация данных?

Визуализация данных - это графическое представление информации и данных, чтобы сделать их полезными и понятными для всех. Это делается с помощью визуальных инструментов, включая диаграммы, графики и карты.

Сегодня нас окружают огромные данные по всем аспектам жизни, будь то социальные, технические, личные и медицинские. Итак, чтобы иметь дело с данными, специалисты по данным выполняют различные шаги для преобразования этих данных в некоторую пригодную для использования форму, и визуализация данных является одним из способов, с помощью которого данные могут принимать форму, доступную для чтения. Поскольку говорится: «Картинка стоит тысячи слов», то же самое и с данными.

Визуализация данных предпринимается во время двух попыток обучения модели изучению набора данных, а именно. во время выполнения EDA, а затем при завершении анализа для проверки правильности, точности, предсказания и т. д. EDA (исследовательский анализ данных) - это шаг в методологии науки о данных, на котором человек (точнее, тот, кто изучает данные) анализирует данные , ознакомиться с ним, выполнив все манипуляции по устранению неточностей в данных. В этой последовательности анализ не будет полным без визуализаций.

Визуализацию данных лучше всего выполнять с помощью библиотек, включая приложения matplotlib, seaborn и tableau. В этом я остановлюсь на matplotlib.

›› Импортировать matplotlib.pyplot как plt

Используемый набор данных

Чтобы лучше понять, рекомендуется реализовать то, что вы изучаете, поэтому я собираюсь взять пример набора данных, чтобы показать, насколько полезна визуализация.

Взятый набор данных: https://www.kaggle.com/saurograndi/airplane-crashes-since-1908/downloa

Что такое набор данных

Работа с набором данных - это следующий шаг перед реальной визуализацией. В наборе данных «Авиакатастрофы с 1908 года» количество записей: 5268 и количество характеристик: 13.

Давайте посмотрим, как выглядит набор данных:

Манипулирование данными

Манипуляция данными - важная задача, это процесс изменения данных для устранения несоответствий и удаления недостающих значений или их изменения, чтобы упростить внедрение и изучение данных.

Для этого нам нужно проверить наличие расхождений, включая пропущенные значения, выбросы и так далее. В этой статье я сосредоточился на недостающих ценностях и работе с ними.

После проверки отсутствующих значений я обнаружил следующий результат:

На этом рисунке показан процент отсутствующих значений в различных столбцах набора данных. Таким образом, можно сделать вывод, что следует пренебречь столбцами: Время, № рейса, Маршрут, Регистрация, cn / In, Summary; наличие критического количества недостающих данных. Но мы не собираемся удалять сводку, поскольку она содержит некоторые важные значения для различных записей.

Итак, удаление времени, номера рейса, маршрута, регистрации, cn / In и дальнейшее удаление недостающих значений из оставшихся функций, чтобы получить идеальный набор данных для выполнения визуализации.

Визуализация данных

Итак, наконец, давайте выполним простую визуализацию графика для расчета средней выживаемости.

В наборе данных, который у нас есть после обработки данных, мы рассчитаем выживаемость как:

data_copy [«Выживаемость»] = 100 * (data_copy [«Aboard»] - data_copy [«Fatalities»]) / data_copy [«Aboard»]

›› data_copy_mean = data_copy [«Коэффициент выживаемости»]. mean ()

›› survival_per_year = data_copy [[«Дата», «Выживаемость»]]. groupby (data_copy [«Дата»]. dt.year) .agg ([«среднее»])

›› survival_per_year.plot (legend = None)

›› plt.ylabel («Средняя выживаемость,%») ​​

›› plt.xlabel («Год»)

›› plt.title («Средняя выживаемость в год»)

›› plt.xticks ([x для x в диапазоне (1908,2009,10)], вращение = ’vertical’)

›› plt.axhline (y = data_copy_mean, color = ’g’, linestyle = ’-‘)

›› plt.show ()

Итак, выполняя визуализацию, получаем следующий график:

Средняя выживаемость за год составляет ~ 16,75%.

Вывод:

  1. Выявлены недостающие значения.
  2. Разобрались с недостающими значениями.
  3. Выполненная визуализация с использованием библиотеки matplotlib.pyplot
  4. С помощью визуализированного графика найдена средняя выживаемость: ~ 16,75%

Для проверки кода здесь: https://www.kaggle.com/tanvi05/datavisualization-airplane-crashes-since-1908