Сувен Консультантс энд Технолоджи ПВТ Лтд. задание стажировки 1

Аналитика данных может дать нам много информации, которую можно использовать для анализа повседневных погодных условий. Знание точных погодных условий является важным элементом как для отдельных лиц, так и для организаций. Многие предприятия полагаются на погодные условия.

Для принятия точных решений необходимо иметь правильные данные. Одним из типов данных, которые легче найти в Интернете, являются данные о погоде. Многие сайты предоставляют исторические данные по многим метеорологическим параметрам, таким как давление, температура, влажность, скорость ветра, видимость и т. д.

Терминология:

Аналитика данных — это дисциплина, ориентированная на извлечение полезных сведений из данных. Он включает в себя процессы, инструменты и методы анализа данных и управления ими, включая сбор, организацию и хранение данных.

Метеорологические данные:данные, состоящие из физических параметров, которые измеряются непосредственно приборами и включают температуру, точку росы, направление ветра, скорость ветра, облачный покров, слой(я) облаков, высоту потолка, видимость, течение погода и количество осадков.

Кажущаяся температура. Кажущаяся температура – это воспринимаемый человеком температурный эквивалент, вызванный комбинированным воздействием температуры воздуха, относительной влажности и скорости ветра. Мера чаще всего применяется к воспринимаемой температуре наружного воздуха.

Влажность. Влажность — это количество водяного пара в воздухе.

Цель:

Основная цель — выполнить очистку данных, выполнить анализ для проверки влияния глобального потепления на температуру и влажность и, наконец, сделать вывод.

Данная гипотеза:

Нулевая гипотеза H0: Указывает ли кажущаяся температура и влажность на ежемесячное сравнение данных за 10 лет увеличение из-за глобального потепления?

H0 означает, что нам нужно найти, увеличилась ли средняя кажущаяся температура за месяц месяца с апреля, начиная с 2006 по 2016 год, и средняя влажность за тот же период или нет.

Набор данных:

Набор данных можно получить на Kaggle. В наборе данных есть почасовая температура, зарегистрированная за последние 10 лет, начиная с 01.04.2006 00:00:00.000 +0200 до 09.09.2016 23:00:00.000 +0200. Он соответствует Финляндии, стране в Северной Европе.

Исходный URL: https://www.kaggle.com/muthuj7/weather-dataset

Анализ данных

Давайте сначала импортируем необходимые библиотеки.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Теперь давайте прочитаем наши данные, которые присутствуют в файле «weatherHistory.csv».

data = pd.read_csv('../input/weather-dataset/weatherHistory.csv')

Теперь давайте проверим первые строки набора данных, используя функцию head().

data.head()

Важно отметить, что наши данные не должны содержать пропущенных значений. Итак, чтобы проверить это, просто сделайте это

data.isnull().sum()

Как хорошо видно, что функция — «Тип преципа» имеет 517 нулевых значений. К счастью, эта функция бесполезна для нас, поэтому мы можем просто отключить эту функцию позже. Теперь давайте проверим, сколько строк у нас есть и какие типы данных имеют наши функции.

data.info()

Выведем имена всех столбцов:

data.columns

Теперь мы выберем только те столбцы, которые нам нужны, и оставим остальные.

Выбранные столбцы:

«Отформатированная дата»

«Кажущаяся температура ©»

'Влажность'

«Ежедневное резюме»

col = ['Formatted Date', 'Apparent Temperature (C)', 'Humidity', 'Daily Summary']
data = data[col]
data.head()

Для дальнейшего анализа данных необходимо изменить «Форматированную дату» на формат «Дата-время», потому что тип данных этой функции — «объект», и мы не можем обучить нашу модель объектному типу данных. Это можно просто сделать с помощью предопределенной функции pandas -> pd.to_datetime().

Не забудьте указать utc = True.

data[‘Formatted Date’] = pd.to_datetime(data[‘Formatted Date’], utc=True)
data = data.set_index(‘Formatted Date’)
data = data.resample(‘M’).mean()

Resample('M') просто преобразует почасовые данные в месячные, взяв среднее значение.

Вот как выглядят наши данные:

data.head()

Пришло время визуализировать наши данные, используя некоторые выдающиеся библиотеки, называемые matplotlib и seaborn.

Во-первых, давайте посмотрим на изменение «кажущейся температуры» и «влажности» со временем.

plt.figure(figsize=(18,5))
plt.title(‘Variation of temp with humidity’)
plt.plot(data)

Теперь построим график зависимости температуры от влажности для каждого четного месяца.

plt.figure(figsize=(15, 5))
data_of_april = data[data.index.month==4]
plt.plot(data_of_april, marker=’o’,label=[‘Apparent Temperature ©’,’Humidity’] );
plt.legend(loc = ‘center right’,fontsize = 10)
plt.title(‘Relation between temperature and humidity for the month of April’)
plt.show()

Из приведенного выше графика видно, что для 2009 года наблюдается резкое повышение температуры, и это максимальная температура апреля. После 2009 года температура снова падает, а в 2015 году апрель достиг своего минимума.

Теперь давайте построим взаимосвязь между функциями наших данных. И давайте посмотрим, что мы можем из этого узнать.

В этом случае вам поможет Heatmap из библиотеки seaborn.

correlation = data.corr()
sns.heatmap(correlation)

Это наша красивая корреляция между «кажущейся температурой» и «влажностью».

Теперь давайте построим гистограмму, чтобы увидеть связь между «влажностью» и «кажущейся температурой».

plt.figure(figsize = (18,5))
sns.barplot(x=’Apparent Temperature ©’, y=’Humidity’, data=data_of_april)
plt.xticks(rotation=-30)
plt.title(‘Relation between temperature and humidity for the month of April’)
plt.show()

sns.set_style("darkgrid")
sns.regplot(data=df_monthly_mean, x="Apparent Temperature (C)", y="Humidity", color="g")
plt.title("Relation between Apparent Temperature (C) and Humidity")
# save the figure
plt.savefig('plot1.png', dpi=300, bbox_inches='tight')
plt.show()

Заключение:

Из этого анализа мы можем сделать вывод, что кажущаяся температура и влажность по сравнению с ежемесячными данными за 10 лет указывают на увеличение из-за глобального потепления.

Наша окружающая среда сильно пострадала от глобального потепления. Из нашего анализа стало ясно, что это внезапное повышение температуры и внезапное снижение температуры в течение десяти лет. Но в случае влажности видно, что она не повышалась и не опускалась, а оставалась неизменной в течение 10 лет.

Исходный код: GitHub

Я благодарен наставникам на https://internship.suvenconsultants.com за отличные формулировки задач и за то, что многие из нас получили опыт стажировки по программированию. Спасибо www.suvenconsultants.com

Свяжитесь со мной:

LinkedIn: https://www.linkedin.com/in/hrishikeshkini/

GitHub: https://github.com/hrishikeshkini