Простая визуализация данных
Наука о данных - это искусство рассказывания историй, поскольку это способ объяснить людям, насколько красивы и полезны данные, тем, кто не осведомлен о данных, преобразовав их в некоторую понятную форму. Итак, визуализация данных - один из самых сильных инструментов или, скажем, шагов в Data Science для перевода данных в форму, понятную каждому.
Этот пост предназначен для новичков, которые только начали с визуализации данных для EDA.
Что такое визуализация данных?
Визуализация данных - это графическое представление информации и данных, чтобы сделать их полезными и понятными для всех. Это делается с помощью визуальных инструментов, включая диаграммы, графики и карты.
Сегодня нас окружают огромные данные по всем аспектам жизни, будь то социальные, технические, личные и медицинские. Итак, чтобы иметь дело с данными, специалисты по данным выполняют различные шаги для преобразования этих данных в некоторую пригодную для использования форму, и визуализация данных является одним из способов, с помощью которого данные могут принимать форму, доступную для чтения. Поскольку говорится: «Картинка стоит тысячи слов», то же самое и с данными.
Визуализация данных предпринимается во время двух попыток обучения модели изучению набора данных, а именно. во время выполнения EDA, а затем при завершении анализа для проверки правильности, точности, предсказания и т. д. EDA (исследовательский анализ данных) - это шаг в методологии науки о данных, на котором человек (точнее, тот, кто изучает данные) анализирует данные , ознакомиться с ним, выполнив все манипуляции по устранению неточностей в данных. В этой последовательности анализ не будет полным без визуализаций.
Визуализацию данных лучше всего выполнять с помощью библиотек, включая приложения matplotlib, seaborn и tableau. В этом я остановлюсь на matplotlib.
›› Импортировать matplotlib.pyplot как plt
Используемый набор данных
Чтобы лучше понять, рекомендуется реализовать то, что вы изучаете, поэтому я собираюсь взять пример набора данных, чтобы показать, насколько полезна визуализация.
Взятый набор данных: https://www.kaggle.com/saurograndi/airplane-crashes-since-1908/downloa
Что такое набор данных
Работа с набором данных - это следующий шаг перед реальной визуализацией. В наборе данных «Авиакатастрофы с 1908 года» количество записей: 5268 и количество характеристик: 13.
Давайте посмотрим, как выглядит набор данных:
Манипулирование данными
Манипуляция данными - важная задача, это процесс изменения данных для устранения несоответствий и удаления недостающих значений или их изменения, чтобы упростить внедрение и изучение данных.
Для этого нам нужно проверить наличие расхождений, включая пропущенные значения, выбросы и так далее. В этой статье я сосредоточился на недостающих ценностях и работе с ними.
После проверки отсутствующих значений я обнаружил следующий результат:
На этом рисунке показан процент отсутствующих значений в различных столбцах набора данных. Таким образом, можно сделать вывод, что следует пренебречь столбцами: Время, № рейса, Маршрут, Регистрация, cn / In, Summary; наличие критического количества недостающих данных. Но мы не собираемся удалять сводку, поскольку она содержит некоторые важные значения для различных записей.
Итак, удаление времени, номера рейса, маршрута, регистрации, cn / In и дальнейшее удаление недостающих значений из оставшихся функций, чтобы получить идеальный набор данных для выполнения визуализации.
Визуализация данных
Итак, наконец, давайте выполним простую визуализацию графика для расчета средней выживаемости.
В наборе данных, который у нас есть после обработки данных, мы рассчитаем выживаемость как:
data_copy [«Выживаемость»] = 100 * (data_copy [«Aboard»] - data_copy [«Fatalities»]) / data_copy [«Aboard»]
›› data_copy_mean = data_copy [«Коэффициент выживаемости»]. mean ()
›› survival_per_year = data_copy [[«Дата», «Выживаемость»]]. groupby (data_copy [«Дата»]. dt.year) .agg ([«среднее»])
›› survival_per_year.plot (legend = None)
›› plt.ylabel («Средняя выживаемость,%»)
›› plt.xlabel («Год»)
›› plt.title («Средняя выживаемость в год»)
›› plt.xticks ([x для x в диапазоне (1908,2009,10)], вращение = ’vertical’)
›› plt.axhline (y = data_copy_mean, color = ’g’, linestyle = ’-‘)
›› plt.show ()
Итак, выполняя визуализацию, получаем следующий график:
Средняя выживаемость за год составляет ~ 16,75%.
Вывод:
- Выявлены недостающие значения.
- Разобрались с недостающими значениями.
- Выполненная визуализация с использованием библиотеки matplotlib.pyplot
- С помощью визуализированного графика найдена средняя выживаемость: ~ 16,75%
Для проверки кода здесь: https://www.kaggle.com/tanvi05/datavisualization-airplane-crashes-since-1908