Пошаговое руководство с кодом, как делать графики красивыми и понятными

Вступление

В области науки о данных Jupyter Notebooks - очень популярный инструмент для исследования данных и экспериментов. Благодаря природе записных книжек, они также позволяют легко отображать и визуализировать данные. Визуализация данных может быть отличным инструментом для исследования, но это также становится важным, когда вы хотите поделиться своей работой с другими. Чтобы поделиться своей работой с другими, особенно с руководством, вам лучше знать, как создавать красивые и понятные графики.

Библиотека Сиборна

Когда дело доходит до визуализаций, я предпочитаю seaborn. Seaborn - это библиотека, построенная на основе Matplotlib, что делает ее немного проще в использовании и делает ее намного более привлекательной для глаз. Если вы не очень хорошо знакомы с Matplotlib, настройка ваших графиков в seaborn может быть сложной, поскольку он использует синтаксис Matplotlib для изменения частей графика. Ниже у меня есть весь код, необходимый для упрощения понимания ваших графиков. Есть так много вещей, которые вы можете сделать с Matplotlib и seaborn, и это определенно не является всеобъемлющим, но оно должно дать вам отличную отправную точку.

Данные

Для этих примеров я взял некоторые легко доступные данные из Kaggle. Я взял данные из Вызова бедности в Коста-Рике и Вызова регрессии цен на жилье.

Визуализации

Базовый график

Во-первых, мы собираемся импортировать наши библиотеки, которые мы будем использовать, и построим простой график. Мы собираемся взглянуть на количество целевой переменной, уровня бедности, для первого набора данных, с которым мы работаем.

Из одной строчки кода мы получаем красивый график. Здесь не так много информации, но, по крайней мере, выглядит красиво. Хотя это может быть немного маленьким. Давайте добавим еще одну строку кода, чтобы изменить размер графика и сделать его немного больше.

Теперь это легче увидеть. В аргументе figsize вы можете указать любые измерения, которые хотите изменить размер вашего графика. Он просто принимает аргумент, который выглядит как (высота, ширина).

Маркировка графика

Теперь, когда у нас есть граф приличного размера, который легко увидеть, нам нужно сделать его назначение более ясным. Мы можем добавить заголовок и метки оси с помощью всего лишь нескольких строк кода.

Теперь мы подошли к тому моменту, когда тот, кто действительно не знает, что происходит, может взглянуть на этот график и получить некоторое представление о том, что мы делаем. Тем не менее, эту крошечную надпись все еще немного трудно прочитать. Давай исправим это.

Мне это кажется очень удобочитаемым графиком. У нас все четко обозначено и достаточно большое, чтобы оно выглядело презентабельно.

Дизайн

Теперь, когда график ясно показывает, что происходит, мы можем внести некоторые изменения, чтобы сделать его более привлекательным и добавить больше деталей. Первый способ сделать это - изменить цветовую палитру, которую используют наши графики.

Теперь наш график немного отличается от него. Seaborn поддерживает множество различных цветовых схем. Вы можете ознакомиться с ними здесь. После того, как вы установите цветовую схему, она будет установлена ​​для остальной части ноутбука. Таким образом, вы можете либо установить его один раз вверху, либо изменить его для каждого графика.

Мы все еще можем добавить еще несколько деталей, чтобы сделать наш график более понятным. Вам может быть интересно, какой уровень бедности хороший, а какой плохой. Поскольку у нас они просто обозначены цифрами, было бы неплохо немного уточнить это.

Теперь мы прояснили, что означает каждая целевая метка. Давайте на секунду вернемся к нашему маленькому графику и построим то же самое.

Это довольно непрофессиональный график. Все наши этикетки пересекаются друг с другом, что затрудняет чтение. К счастью, есть простое решение, чтобы сделать этот вид намного лучше. Мы собираемся немного повернуть наши лейблы.

Вот так наш график снова стал читаемым. Это может пригодиться вам для длинных этикеток или просто для того, чтобы график выглядел немного лучше.

Далее мы собираемся погрузиться в другие наши данные. Мы собираемся построить график распределения цен на жилье по трем различным уровням качества, используя инструменты, которые мы уже рассмотрели.

У нас есть довольно красивый график. Единственная проблема в том, что у нас нет возможности узнать, какой из дистрибутивов является каким. В отличие от последнего графика, мы не можем маркировать наши группы по оси абсцисс. Вместо этого нам нужно добавить легенду к нашему графику.

С помощью легенды мы можем сказать, какое распределение связано с какой группой качества, и наш график снова имеет смысл.

Наконец, мы рассмотрим, как управлять размерами графика. Если нас не очень беспокоит длинный хвост нашей высококачественной группы и мы хотим увеличить масштаб основного распределения, мы можем установить пределы нашей оси иначе, чем по умолчанию. Здесь мы установим нашу ось Y немного выше, чем значение по умолчанию, и приведем нашу ось X к 600000.

Наш график показывает нам более близкую картину основных частей наших дистрибутивов. Это может быть полезно, если один или два выброса затрудняют чтение остальных ваших графиков.

Заключение

Это всего лишь несколько советов и приемов, которые помогут вам настроить графики морских наблюдений. Вы можете сделать с ним гораздо больше. Если вы хотите узнать больше о способах настройки ваших графиков, прочтите документацию Matplotlib. Я надеюсь, что это было полезно, и теперь ваши графики будут готовы поделиться со всем миром.