До сих пор очистка данных и исследовательский анализ данных (EDA) обсуждались в блогах Саба Фирдоус и Фариха Салим. Из этого мы получили довольно интересную информацию о данных. Теперь, когда у нас есть вся необходимая аналитика и идеи, пришло время представить нашу нулевую гипотезу и ее альтернативную гипотезу.

Проверка нулевой и альтернативной гипотезы

При проверке статистических гипотез нулевая гипотеза (H0) и альтернативная гипотеза (H1 или Ha) являются двумя фундаментальными концепциями, которые помогают исследователям делать выводы на основе данных. Эти гипотезы используются для оценки того, существует ли значительный эффект или взаимосвязь между переменными в статистическом исследовании. Вот объяснение каждого из них:

Нулевая гипотеза (H0):

  • Нулевая гипотеза представляет собой предположение по умолчанию или статус-кво в статистическом тесте.
  • В нем говорится, что между изучаемыми группами или переменными нет существенного эффекта, взаимосвязи или разницы.

Альтернативная гипотеза (H1):

  • Альтернативная гипотеза представляет собой противоположность нулевой гипотезы.
  • Он утверждает, что существует значительный эффект, взаимосвязь или различие между группами или переменными.

В нашем исследовании мы выдвинули нулевую гипотезу о том, что количество несчастных случаев осталось постоянным или что с годами в их количестве не произошло значительных изменений. Это основополагающее предположение служит основой, на которой мы будем проверять любые наблюдаемые изменения или отклонения в данных об авариях. Утверждая, что не произошло существенных изменений в частоте несчастных случаев, мы стремимся строго оценить обоснованность этой гипотезы посредством статистического анализа и эмпирических данных.

Чтобы оценить взаимосвязь между переменными «Год происшествия» и «Количество происшествий», мы использовали ряд шагов. Код приведен ниже:

import pandas as pd
import numpy as np
import statsmodels.api as sm

Years = [2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005]
Accidents_in_each_year = [53414, 58569, 60322, 58482, 59448, 65461, 69529, 73018, 77771, 80004, 73750, 74164]

# Create a DataFrame
data = {'Year': Years, 'Accidents': Accidents_in_each_year}
df = pd.DataFrame(data)

# Add a constant term to the independent variable (Year)
X = sm.add_constant(df['Year'])

# Fit a linear regression model
model = sm.OLS(df['Accidents'], X).fit()

# Print the regression summary
print(model.summary())

Полученные результаты

Представление результатов приведенного выше кода показано на изображении ниже.

Представленные результаты регрессии предназначены для анализа линейной регрессии между переменными «Год» и «Несчастные случаи». Вот интерпретация ключевой статистики:

  1. R-квадрат (R²): R-квадрат является мерой соответствия модели. В данном случае это 0,846, а это значит, что примерно 84,6% отклонения количества аварий можно объяснить линейной зависимостью от года. Более высокий R-квадрат указывает на то, что модель хорошо соответствует данным.
  2. Скорректированный R-квадрат (Adj. R²): Скорректированный R-квадрат корректирует значение R-квадрата для количества предикторов в модели. В данном случае это 0,830, и оно немного ниже, чем R-квадрат, поскольку оно наказывает модели со слишком большим количеством предикторов. Это более консервативный показатель соответствия модели.
  3. F-статистика: F-статистика проверяет, существует ли статистически значимая связь между независимой переменной (Год) и зависимой переменной (Несчастные случаи). Высокая F-статистика (в данном случае 54,89) с низким значением p (2,29e-05) указывает на то, что общая модель статистически значима.
  4. Коэффициенты:
  • const (Пересечение): Отсечение представляет собой расчетное количество несчастных случаев за базовый год (в данном случае это 2005 год). Это 4.593e+06, что означает, что по оценкам, в базовом году произошло около 4 593 000 несчастных случаев.
  • Год: коэффициент для переменной «Год» равен -2251,3147. Это представляет собой расчетное изменение количества несчастных случаев за каждый год увеличения. В данном случае оно отрицательное, что указывает на то, что модель предполагает тенденцию к снижению примерно на 2251 несчастный случай в год.

5. P-значения (P›|t|):

  • Значение p, связанное с коэффициентом «Год», очень низкое (около 0,000). Это говорит о том, что переменная «Год» имеет высокую статистическую значимость, а это означает, что существуют убедительные доказательства, позволяющие предположить связь между годом и количеством несчастных случаев.

6. Omnibus, Prob(Omnibus), Jarque-Bera (JB), Skew, Kurtosis: Эти статистические данные связаны с нормальностью остатков (разницами между прогнозируемыми и наблюдаемыми значениями). В общем, для линейной регрессии желательно нормальное распределение остатков. В этом случае значения p для Омнибуса (0,621) и Жарка-Бера (0,720) высоки, что позволяет предположить, что остатки могут быть примерно нормально распределены.

7. Дурбин-Ватсон: Статистика Дурбина-Ватсона проверяет наличие автокорреляции в остатках. Значение, близкое к 2, предполагает отсутствие значимой автокорреляции. В данном случае оно составляет примерно 0,970, что указывает на небольшую автокорреляцию.

В целом регрессионная модель предполагает, что существует статистически значимая тенденция снижения количества несчастных случаев с годами. Отрицательный коэффициент «Год» говорит о том, что за каждый дополнительный год количество несчастных случаев уменьшается примерно на 2251 несчастный случай. Однако, как и в случае любого статистического анализа, при интерпретации результатов важно учитывать практическую значимость и контекст конкретной предметной области.

Примерка модели

В нашем подходе к пониманию и прогнозированию дорожно-транспортных происшествий во Франции мы применили к данным модель линейной регрессии с целью спрогнозировать количество аварий на ближайшие годы. Модель дала многообещающие результаты, предоставив нам ценную информацию о будущих тенденциях аварийности. Однако, как ответственные исследователи данных, мы решили проверить нашу модель, сравнив ее прогнозы с реальными данными. То, что мы обнаружили, было одновременно захватывающим и обнадеживающим.

# Data
Years = [2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005]
Accidents_in_each_year = [53414, 58569, 60322, 58482, 59448, 65461, 69529, 73018, 77771, 80004, 73750, 74164]

# Create a DataFrame with future years you want to predict for
future_years = [2017, 2018, 2019, 2020]
future_data = {'Year': future_years}
future_df = pd.DataFrame(future_data)

# Coefficients from the linear regression model
intercept = 4.593e+06
year_coefficient = -2251.3147

# Calculate predictions for the future years
future_df['Predicted_Accidents'] = (intercept + future_df['Year'] * year_coefficient).astype(int)

# Print the predictions
print(future_df)

Прогнозирующая модель и результаты

Наша прогнозная модель, основанная на данных об авариях за предыдущие годы, оценила количество несчастных случаев, которые, как ожидается, произойдут во Франции в 2017, 2018, 2019 и 2020. Прогноз модели несчастных случаев за указанные годы составил 52098, 49846, 47595 и 45 344 соответственно.

Проверка в реальных условиях

Когда мы сопоставили прогноз нашей модели с фактическими данными об авариях, мы начали искать точные цифры, отражающие истинность несчастных случаев, и при этом мы наткнулись на число для 2020, мы обнаружили, что 2020. В этом году во Франции зарегистрировано >45 121 несчастных случаев. Это означает, что наша модель предсказала количество несчастных случаев с поразительной точностью — примерно 99 %.

Заключение

Этот впечатляющий уровень точности демонстрирует мощь и надежность нашей прогнозной модели. Используя исторические данные и применяя статистические методы, мы смогли сделать очень точные прогнозы дорожно-транспортных происшествий во Франции. Такой уровень точности может оказаться неоценимым для политиков, правоохранительных органов и организаций, работающих над повышением безопасности дорожного движения.

Однако важно отметить, что прогнозные модели не безошибочны. Хотя в этом случае наша модель показала себя исключительно хорошо, крайне важно постоянно проверять и совершенствовать такие модели по мере поступления новых данных. Наша приверженность точности и ответственности заставляет нас постоянно совершенствовать наши методы и повышать безопасность дорожного движения для всех.

Подводя итог, наш успешный прогноз на 2020 год подтверждает потенциал знаний, основанных на данных, в предотвращении и управлении несчастными случаями. Это свидетельство эффективности нашего подхода и важности науки о данных в обеспечении безопасности наших дорог для всех.