Исследовательский анализ данных набора данных IRIS

Давайте рассмотрим один из простейших наборов данных, набор данных IRIS, который в основном представляет собой данные о трех разновидностях одного типа цветка в форме длины чашелистика, ширины чашелистика, длины лепестка и ширины лепестка. Набор данных состоит из 50 образцов каждого из трех видов ириса (Iris setosa, Iris virginica, и Ирис разноцветный ). Для каждого образца были измерены четыре характеристики: длина и ширина чашелистиков и лепестков в сантиметрах. Наша цель - классифицировать новый цветок как принадлежащий к одному из 3 классов с учетом 4 характеристик.

Загрузите данные IRIS здесь.

Здесь я импортирую библиотеки в блокнот ipython с помощью Anaconda Navigator (скачать: https://www.anaconda.com/products/individual). которые могут быть полезны в нашем исследовательском анализе данных, например pandas, matplotlib, numpy и seaborn.

Здесь IRIS представляет собой сбалансированный набор данных, поскольку количество точек данных для каждого класса Setosa, Virginica и Versicolor равно 50. Если классы имеют разное количество точек данных, то это несбалансированный набор данных.

2D точечный график

Используя объект pandas, который мы создали до того, как мы сможем построить простой 2D-график функций, которые мы даем как параметры x и y метода plot () для pandas. Метод show () в Matplotlib помогает построить график данных.

Но с помощью Seaborn мы можем построить более информативный график, используя цветовую кодировку для каждого типа цветка.

Здесь, на приведенном выше графике, обратите внимание, что точки Blue Setosa можно легко отделить от точек Orange Versicolor и Green Verginica, просто нарисовав линию, но оранжевые и зеленые точки по-прежнему сложно разделить, потому что они перекрываются. Таким образом, используя функции данных sepal_length и sepal_width, мы можем получить такой объем информации.

2D-диаграмма рассеяния: парная диаграмма

Парный график от Seaborn может за один раз нарисовать несколько двухмерных точечных графиков для каждой возможной комбинации функций.

Итак, если мы рассмотрим парные графики, то можем сказать, что petal_length и petal_width являются наиболее важными характеристиками для идентификации различных типов цветов. В то время как Setosa можно легко разделить линейно, Virnica и Versicolor частично пересекаются. Таким образом, мы можем разделить их линией и некоторыми условиями «if-else».

1D диаграмма рассеяния, гистограмма, PDF и CDF

Как мы можем видеть на графике, это очень сложно понять, поскольку точки сильно перекрываются. Есть более эффективные способы визуализации диаграмм рассеяния. Используя Сиборн, мы можем построить гистограмму функции распределения вероятностей.

Гистограмма: гистограмма - это график, представляющий количество частот каждого окна данных объекта, для которого строится график (формы полос на графике).

PDF: Функция плотности вероятности представляет собой сглаженную гистограмму. Каждая точка в PDF представляет собой вероятность для этого конкретного значения в данных (колоколообразная кривая на графике). PDF форматируется с использованием Оценка плотности ядра. Для каждого значения точки на оси x значение оси y представляет вероятность появления в наборе данных. Чем больше значение y, тем больше этого значения существует в наборе данных.

Теперь из этих графиков мы можем заметить, что, используя только одну функцию, простая модель может быть сформирована с помощью условия if..else как if (petal_length) ‹2,5, то тип цветка - Setosa .

А что, если нам нужен процент точек Versicolor, имеющих petal_length меньше 5? нам на помощь приходит CDF!

CDF: функция совокупной плотности - это совокупная сумма PDF-файла. Каждая точка на кривой CDF представляет интеграцию PDF до этой точки CDF. Ниже представлена гистограмма доходности. Каждая точка в CDF представляет, какой процент от общего количества баллов принадлежит ниже этой точки.

Чтобы построить гистограмму, первым делом нужно разбить диапазон значений, то есть разделить весь диапазон значений на серию интервалов, а затем подсчитать, сколько значений попадает в каждый интервал. Бины обычно задаются как последовательные неперекрывающиеся интервалы переменной. Бины (интервалы) должны быть смежными и часто (но не обязательно) одинакового размера (дополнительная информация: https://www.datacamp.com/community/tutorials/histograms-matplotlib).

Теперь, построив график CDF petal_length для различных типов цветов комбинированным способом, мы можем получить общую картину данных.

Среднее, дисперсия и стандартное отклонение

Среднее: https://en.wikipedia.org/wiki/Mean

Вариант: https://en.wikipedia.org/wiki/Variance

Стандартное отклонение: https://en.wikipedia.org/wiki/Standard_deviation

Медиана, процентиль, квантиль, MAD, IQR

Медиана: https://en.wikipedia.org/wiki/Median

Процентиль: https://en.wikipedia.org/wiki/Percentile

Квантиль: https://en.wikipedia.org/wiki/Quantile

MAD: среднее абсолютное отклонение: https://en.wikipedia.org/wiki/Median_absolute_deviation

IQR: Межквантильный диапазон: https://en.wikipedia.org/wiki/Interquartile_range

Коробчатые графики

Коробчатые диаграммы с усами - еще один метод более интуитивной визуализации 1D-диаграммы. Прямоугольники на графике представляют межквантильный диапазон, поскольку первая горизонтальная линия снизу прямоугольника представляет значение 25-го процентиля, средняя линия представляет 50-й процентиль, а верхняя линия представляет 75-й процентиль. Черные линии за пределами квадратов называются усами. Не определено, что представляют собой усы, но в некоторых случаях это может быть минимальное значение признака на нижней горизонтальной линии и максимальное значение на верхней горизонтальной линии.

Сюжеты для скрипки

Сюжет для скрипки от Seaborn объединяет PDF и Box-Plot. Как и на приведенном ниже графике, для всех трех цветов PDF-файлы petal_length находятся по бокам формы, а в центре черным цветом представлены прямоугольные диаграммы.

Плотность многомерной вероятности: контурный график

Seaborn предоставляет метод Jointplot () для контуров. Название «объединенный график», потому что оно представляет собой контуры, а также PDF-файлы по краям. Чем темнее область, тем больше вероятность появления того значения признаков, для которых строится график.