Спасибо «https://suvenconsultants.com/» за такую ​​замечательную задачу и возможность получить сертификат…

Что ж, задача в этом проекте — провести анализ данного набора данных и либо подтвердить, либо опровергнуть данную гипотезу.

Данная нулевая гипотеза такова: «Указывает ли кажущаяся температура и влажность, сравниваемые ежемесячно за 10 лет данных, увеличение из-за глобального потепления».

Мы будем использовать python для анализа данных.

Исследование набора данных

Давайте сначала начнем с импорта необходимых модулей и библиотеки.

Теперь я импортировал файл данных, расположенный в том же рабочем каталоге. Вы можете скачать файл с https://www.kaggle.com/muthuj7/weather-dataset.

Функция read_csv() используется для получения CSV-файла в качестве входных данных и создания кадра данных pandas. Здесь фрейм данных называется df.

Давайте пропустим данные. Для этого используется метод head().

Метод head() возвращает первые 5 значений (если аргумент не передан) из фрейма данных.

Здесь у нас есть несколько столбцов, которые показывают различные особенности погоды в данное время. Показания записываются ежечасно.

Для нашего анализа нам нужны только три столбца, то есть «Дата в формате», «Кажущаяся температура (C)» и «Влажность». Итак, мы разделим эти столбцы.

Теперь наши данные выглядят примерно так.

Прежде чем двигаться вперед, давайте посмотрим на любое отсутствующее значение в данных.

isnull() возвращает true для всех отсутствующих значений.

Метод sum() используется для суммирования всех пропущенных значений и получения краткой сводки.

Мы видим, что в наборе данных нет пропущенных значений. Так что мы можем двигаться вперед.

Повторная выборка

Записи в данном наборе данных создавались ежечасно. Это означает, что набор данных показывает статус погоды за каждый час. Но мы хотим сравнить характеристики одного месяца с тем же месяцем следующего года и того же месяца за следующие 10 лет. Итак, нам нужно изменить выборку наших данных и преобразовать записи из почасовых в месячные.

Для повторной выборки мы можем использовать метод resample() библиотеки pandas. Но для этого требуется, чтобы отформатированная дата была в формате UTC. Кроме того, он будет передискретизировать данные, только если отформатированные данные установлены в качестве индекса фрейма данных. Для выполнения этих задач мы можем использовать методы to_datetime() и set_index().

Метод to_datetime() используется для преобразования заданной даты любого формата в стандартные форматы.

Метод set_index() устанавливает данный столбец в качестве индекса фрейма данных.

Вот как наши данные выглядят на данный момент.

Теперь мы можем легко изменить выборку наших данных в соответствии с нашими требованиями.

Метод resample() выполняет повторную выборку данных с одной длительности на другую. «M» здесь представляет «Месяц» и указывает методу resample() выполнить повторную выборку данных и преобразовать их в месячный формат.

Метод mean() здесь описывает, что средние значения других столбцов должны быть выбраны в месячном представлении.

Теперь это наш фрейм данных.

Разделение и классификация данных

Теперь я разделю записи разных месяцев в разные рамки. Это означает. Я буду разделять и хранить все записи, относящиеся к январю, в одном фрейме данных.

Это нужно делать каждый месяц.

Теперь я буду хранить эти кадры данных в списке, чтобы я мог перебирать их, когда мне нужно. Кроме того, я создам список с указанием всех месяцев. Это поможет мне, когда я буду создавать визуализации.

Создание визуализации для анализа

Наконец, мы подошли к последней и самой важной части проекта. Теперь нам нужно создать соответствующие графики и графики для визуализации и, следовательно, анализа данных.

Это код для построения линейных графиков кажущейся температуры того же месяца за 10 лет.

Из приведенных выше графиков видно, что наблюдаются внезапные изменения кажущейся температуры одного и того же месяца в разные годы.

Теперь мы должны сделать то же самое для влажности.

Снова мы можем видеть внезапные изменения влажности одного и того же месяца в течение 10 лет. Но изменение влажности не так велико, как изменение кажущейся температуры. Чтобы визуализировать это, мы можем построить процентное изменение видимой температуры и влажности. Кроме того, поскольку мы принимаем во внимание проценты, мы можем отобразить кажущуюся температуру и влажность на том же графике. Это также поможет нам сравнить изменения в обеих функциях.

Из приведенных выше графиков видно, что влажность почти постоянна в течение большей части месяцев, а в течение нескольких месяцев значения уровня влажности изменяются максимум на 20 процентов. Но для кажущейся температуры изменения большие, внезапные и двунаправленные. Это означает, что в какой-то год кажущаяся температура резко упала, а в какой-то неожиданно повысилась.

Вывод

Из нашего анализа данных мы пришли к выводу, что между глобальным потеплением и видимой температурой/влажностью нет большой связи. Влажность оставалась почти постоянной, в то время как кажущаяся температура как увеличивалась, так и уменьшалась.