EDA — очень важный шаг в анализе данных перед прогнозированием модели, когда мы более глубоко понимаем наши данные. Но в начале нашего путешествия по науке о данных нам было трудно выбрать правильную визуализацию вместе с библиотекой pandas, чтобы делать выводы и выводы.

С помощью EDA мы находим уникальные характеристики с одномерными и многомерными данными, такими как выбросы, форма распределения, статика, порядок появления и многое другое. Мы понимаем корреляцию, тенденции, распространение и закономерности с различными числовыми переменными. С помощью библиотеки pandas мы можем играть с нашими переменными, используя groupby, concat, merge, sort_values ​​и многие другие интересные функции.

Хотя у нас есть замечательные ресурсы, такие как matplotlib, seaborn и plotly, для визуализации нашего анализа может быть немного непонятно, что и когда использовать во время нашего начального путешествия по науке о данных.

Давайте посмотрим на простой EDA для набора данных, который также может дать структуру для выполнения анализа других наборов данных. Одни и те же шаги могут применяться не ко всем наборам данных, но они могут дать представление и ментальную карту концепций и визуализаций.

Надеюсь, это поможет в вашем анализе EDA!

Набор данных о производстве меда — EDA

Давайте рассмотрим набор данных из kaggle и приступим к EDA для него.

Набор данных: Производство меда в США (1998–2012 гг.)

Цель:
визуализировать, как менялось производство меда за годы (1998–2016 годы) в Соединенных Штатах.

Ключевые вопросы, на которые необходимо ответить:
* Как изменился урожай меда с 1998 по 2016 год?
* Каковы основные тенденции производства меда в разных штатах с течением времени?
* Можно ли наблюдать какие-либо закономерности между общим производством меда и его годовой стоимостью? Как стоимость продукции, которая в некотором смысле может быть связана со спросом, меняется каждый год?

Давайте посмотрим, как мы можем отдать должное нашим идеям, основанным на нашей EDA!

Импорт необходимых пакетов

Загрузить данные

Аналитика:
Набор данных выглядит чистым и последовательным и имеет все описание, которое было в словаре данных.

Проверьте типы данных для переменных

Статистика:
1. year имеет тип данных int, но для анализа мы преобразуем его в категориальные данные
2. состояние имеет тип данных object.
3. все остальные имеют типы данных int и float и являются числовыми данными

Описание набора данных

Статистика:
1. Судя по numcol, он имеет широкий диапазон, разбросанный по всем штатам.
2. Среднее значение numcol близко к 75-му процентилю, что показывает правую асимметрию. .
3. yieldpercol также имеет широкий диапазон от 19 до 136.
4. Все оставшиеся столбцы также содержат широкий диапазон данных. Мы проведем исследование, чтобы найти разброс по различным штатам.

Проверить связь между числовыми столбцами и корреляциями -pairplot()

Проверить корреляцию -heatmap()

Статистика:

Положительная корреляция
1. numcol имеет очень высокую положительную корреляцию с prodvalue, stocks и totalprod.
2. totalprod также имеет высокую положительную корреляцию с prodval и акциями.

Отрицательная корреляция
1. Priceperlb имеет отрицательную корреляцию со всеми переменными и требует дальнейшего изучения.

Анализ категориальных переменных — год и штат

Статистика:
1. В период с 1998 по 2016 год мед производился в 44 штатах.

Проверка общего производства меда с годами — pointplot()

Выводы:
1. Общий объем производства с годами снижается.
2. Это связано с количеством колоний и выходом на колонию. Произведение обоих дает общее производство. Далее проверим с этими переменными.

Проверка количества колоний по годам — pointplot()

Аналитика:
1. Количество колоний уменьшалось до 2008 года и начало расти до 2016 года.
3. Похоже, в 2008 году произошло изменение в сторону увеличения количества numcol, которое привело к тому же.
2. Несмотря на увеличение, нам нужно проверить урожай на колонию, чтобы узнать больше.

Проверка урожайности на колонию по годам — pointplot()

Аналитика:
1. Урожайность колоний имеет тенденцию к снижению с годами, хотя количество колоний увеличилось
3. Похоже, этому есть веская причина.
2. Это показывает, что выход на семью является причиной снижения производства меда, а не количества семей.

Проверка общего производства в каждом штате за годы

Аналитика:
1. Во многих штатах наблюдается очень низкий уровень производства на протяжении многих лет.
2. В некоторых штатах общий объем производства умеренный.
3. В нескольких штатах наблюдается высокий уровень производства. Давайте посмотрим дальше для каждого состояния более четко.

Статистика:
1. Северная Дакота, Южная Дакота, Флорида, Калифорния, Монтана — эти штаты производят больше меда, чем другие.
2. В Калифорнии наблюдается снижение производства, а также Во Флориде наблюдается снижение.
3. В Южной Дакоте сохраняется производство
4. В Северной Дакоте наблюдается рост производства.

Подробно проверьте numcol 5 вышеуказанных состояний - catplot()

Полезная информация:
1. Количество колоний в Северной Дакоте с годами увеличивается.
2. В Калифорнии наблюдается уменьшение количества колоний.
3. В Южной Дакоте, Флориде и Монтане количество колоний практически не изменилось.

Подробно проверьте доходность на столбец в 5 состояниях — catplot()

Аналитика:
1. Урожайность на колонию в Северной Дакоте с годами снижается.
2. Остальные штаты также имеют тенденцию к снижению с годами.

Проверка Prodvalue на протяжении многих лет

Аналитика:
1. Несмотря на снижение урожайности на семью, мы видим увеличение стоимости производства на фунт.
2. Это показывает ценовая эластичность, т. е. из-за увеличения спроса и меньшего предложения стоимость продукции на фунт меда с годами увеличилась.

Проверьте запасы и общую информацию о производстве для каждого штата.

Аналитика:
1. Во Флориде меньше запасов и больше производства, что делает ее очень эффективной.
2. Общий объем производства в Северной Дакоте больше, чем в Южной Дакоте, даже при высокой стоимости производства.
3. Мичиган продает больше и меньше управляет запасами по сравнению с Висконсином.

Проверьте распределение средней цены за фунт меда

Статистика:
1. Цена за фунт имеет правое искажение изображения с большим количеством выбросов для более высоких цен
2. Среднее значение составляет около 1,5.

Проверьте цену за фунт в разных штатах

Выводы:
1. В штате Вирджиния самая высокая цена за фунт меда.
2. Среднее значение 1,5 приходится только на более низкие цены в основных штатах-производителях меда. .

Заключительные выводы

1. Причина снижения общего производства меда в США заключается в снижении выхода на семью.
2. Несмотря на снижение производства, стоимость производства на фунт увеличилась.
3. Среди всех штатов «Монтана», «Калифорния», «Флорида», «Южная Дакота» и «Северная Дакота» производят больше меда.
4. Среди этих 5 штатов Северная Дакота продает больше, но Флорида эффективно управляет запасами и имеет продал больше.

Надеюсь, что вышеизложенное дает понимание для анализа EDA начального уровня.
Спасибо, что уделили время!