Интеллектуальный анализ данных об экономических последствиях Covid-19

Экономические последствия COVID-19

Проект Клары Кэннон, Хасана Хмеди, Томаса Хантера, Ченкуана Лю, Адитьи Пендьяла, Исидороса Циотиса

Резюме

Цель: понять связь между распространением COVID-19 и состоянием экономики.

Данные:случаи COVID-19, случаи смерти и данные тестирования; расходы по кредитным картам, доходы от бизнеса и занятость

Метод. Анализ временных рядов данных на уровне штатов с отставанием входных и целевых переменных на 1–3 недели. Выбранные модели включают ансамбли, усиленные методы и рекуррентные сети.

Ссылка на Github: https://github.com/c3cannon/data_mining_proj

Абстрактный

За последние 11 месяцев было зафиксировано пагубное воздействие COVID-19 на жизнь как с точки зрения здоровья, так и экономики. В данной работе рассматриваются связи между тенденциями, наблюдаемыми в эпидемиологии COVID-19, и состоянием экономики в США. Информация, предоставленная Opportunity Insight Economic Tracker (Chetty et al. 2020), используется для обучения нескольких моделей на основе информации о COVID с февраля по июль 2020 года для получения точных прогнозов по конкретным экономическим показателям на август. Из-за результатов кажется, что данные COVID можно использовать для прогнозирования этих экономических показателей с достаточной точностью.

Введение

С момента подтверждения первого случая заболевания COVID-19 (коронавирусом) в Ухане, Китай, в декабре 2019 года вспышка продолжает распространяться по всему миру. 30 января 2020 г. ВОЗ объявила пандемию чрезвычайной ситуацией международного значения в области общественного здравоохранения. Болезнь нового коронавируса (SARS-CoV-2) распространилась в более чем 190 странах, заразив более 66 миллионов человек и вызвав более 1 536 000 смертей к 9 декабря 2020 года. Хотя в такие времена наибольшей заботой является спасение человеческих жизней, следующая Целью является сохранение благосостояния общества, в том числе экономики. В новейшей истории можно наблюдать влияние испанского гриппа (1918–1919 гг.) на экономику. Несмотря на то, что экономических данных за начало 20 века мало, было отмечено, что последствия закрытия предприятий привели к безработице, а уцелевшие предприятия понесли огромные убытки. Аналогичные сравнения можно провести и с пандемиями недавнего прошлого. Во время атипичной пневмонии (тяжелого острого респираторного синдрома) в 2003 году, которая длилась менее года, доходы предприятий резко сократились. Похожий сценарий произошел в 2009 году, когда распространение гриппа H1N1 вызвало многочисленные последствия. Точно так же COVID-19, несомненно, окажет долгосрочное воздействие на мировую экономику и окажет огромное влияние на финансовые рынки.

За последнее десятилетие алгоритмы искусственного интеллекта доказали свою эффективность в решении задач из различных областей науки и техники, а также в точном прогнозировании поведения финансовых рынков. Кроме того, недавние исследования показали, что поставщики медицинских услуг успешно используют машинное обучение и искусственный интеллект, поскольку они обеспечивают более высокую скорость, масштабируемость и надежность (T. Davenport, R. Kalakota, 2019). Поэтому отрасли здравоохранения и врачи по всему миру использовали различные методы машинного обучения и искусственного интеллекта для борьбы с пандемией COVID-19 и решения проблем во время вспышки.

Связанных с работой

В сообществе машинного обучения были предприняты целенаправленные усилия для анализа поступающих данных о COVID-19, чтобы лучше понять опасности и помочь смягчить последствия этой пандемии. Было обучено множество моделей, и прогнозы как в области здравоохранения, так и экономики улучшили реакцию нашего общества на вирус. Авторы в (Lalmuanawma, Hussain, and Chhakchhuak 2020) представляют обзор влияния методов машинного обучения на скрининг, прогнозирование, отслеживание контактов и разработку лекарств от COVID-19. В работе (Singh, Kumar, and Sonali 2020) акцент был смещен на прогнозирование будущей доступности вируса в Соединенных Штатах. Прогнозы экономических показателей были представлены в (Ou et al., nd), где прогнозировался будущий спрос на автомобильный бензин, а также измерялось влияние государственного вмешательства. Наконец, в (Штифанич и др., 2020) авторы обучили модель, чтобы делать точные прогнозы цен на многочисленные акции США.

Вклад

В этой работе исследуются связи между данными о COVID-19 и экономическими показателями, такими как расходы по кредитным картам, занятость и доходы. Набор данных получен из Opportunity Insight Economic Tracker (Chetty et al. 2020), где ежедневные записи по 10 характеристикам COVID-19 предоставляются вместе с ежедневными записями по 55 экономическим характеристикам. Записи охватывают период с января по ноябрь 2020 года и предоставляются для каждого штата США. Основная цель — использовать методы машинного обучения для обучения эффективных моделей на основе информации о COVID, которые делают надежные и точные прогнозы о будущем экономики в разных штатах. Для тщательного манипулирования временными рядами используются специальные методы, в то время как различные результаты представляются на основе различной информации и схем оптимизации. Были сопоставлены стандартные базовые методы, такие как деревья решений, ближайшие соседи, случайные леса, а также более продвинутые методы, такие как XGboost и рекуррентные нейронные сети. Наконец, результаты анализируются, и предоставляется информация о поведении моделей, основанная на информации о COVID и государственном вмешательстве.

Описание набора данных

Набор данных получен из базы данных Opportunity Insights Economic Tracker, которая объединяет анонимные данные от компаний, занимающихся кредитными картами и платежными ведомостями, а также статистику распространения COVID-19.

Целевые переменные

Рассматриваемые целевые переменные включают следующее:

Расходы, Доход малого бизнеса, Открытость малого бизнеса, Уровень занятости, Заявки на пособие по безработице, Объявления о вакансиях.

Набор данных также включает подкатегории всех этих показателей, которые в целом основаны на секторах экономики или уровне дохода человека (например, расходы на развлечения/товары/образование, расходы людей с низким/высоким доходом, занятость работников в транспортном секторе, доход, полученный малым бизнесом в секторах здравоохранения/образования).

Экономические данные без учета заявок на пособие по безработице представлены в виде процентного изменения соответствующих значений по сравнению с январем, когда не было никакого эффекта COVID как такового. Заявки на пособие по безработице приведены как количество заявок на 100 человек. Большинство целевых переменных представлены в виде 7-дневных скользящих средних для сглаживания пиков и учета недельных моделей.

Входные переменные

Входные характеристики состоят из информации о COVID, которая включает в себя показатели заболеваемости, смертности, тесты, положительные тесты в ежедневном и кумулятивном масштабе. Показатели указаны на 100 тыс. населения. Они также представлены в виде 7-дневных скользящих средних.

Исследование

Многие значения данных отсутствовали в наборе данных. Для их заполнения использовался метод временной интерполяции df_simple = df_simple.interpolate(method = ‘time’). Кроме того, все значения в январе были равны 0 для данных COVID. Эти записи были бы выбросами в контексте нашей проблемы, поскольку нас интересует только траектория после начала COVID. Поэтому учитываются только записи начиная с февраля.

Решая заняться этим проектом, мы выдвинули гипотезу о сильной корреляции между прошлыми значениями (скажем, неделю или две) COVID и текущими значениями этих экономических показателей. Как видно из графиков временных рядов выше, это явно не так. Это уменьшает надежду на получение хорошей производительности от базовых моделей, таких как линейная регрессия. Экономические показатели резко упали в начале апреля из-за паники и самоизоляции, а затем начали медленно восстанавливаться, хотя число случаев постоянно росло.

Однако существует значительная корреляция между набором целевых переменных. Рассмотрим следующий график корреляции между различными временными рядами. Верхний правый прямоугольник содержит корреляцию между входами и выходами. Их величины довольно близки к 0. С другой стороны, корреляция между экономическими переменными довольно сильная (внизу справа), как и ожидалось.

pearson_corr = dataframe_collection[48][[‘new_case_rate_14’,’new_death_rate_14',’new_test_rate_14',‘new_positives_rate_14’,’spend_all’,’revenue_all’,’emp_combined’,’initclaims_rate_combined’,’bg_posts’]].corr(method=’pearson’)
fig, ax = plt.subplots(figsize=(10,10))
plt.title(‘Correlation Plot’)
sns.heatmap(pearson_corr, vmin=-1.0,vmax=1.0, center=0, fmt=’.2f’, square=True, linewidths=.5, annot=True, cbar_kws={“shrink”: .70})
plt.show();

Разработка функций

Что касается выбора признаков, совокупные значения чисел COVID являются избыточными. Согласно теории скорректированного R², эти цифры только ухудшат производительность на тестовом наборе. Следовательно, учитывались только ежедневные значения информации о COVID.

Имеющиеся данные относятся к 51 юрисдикции, представляющей штаты США и округ Колумбия. Существует несколько вариантов обращения к этой переменной: обучить отдельную модель для каждого состояния, отбросить метку состояния и найти общую модель, которая опирается только на прошлые данные, или преобразовать функцию состояния во входную функцию. Последний вариант был выбран путем использования целевого кодирования, которое заменяет категориальный признак средним значением целевого значения. Например, при прогнозировании total_spending просто замените метку состояния на среднее значение total_spending по этому состоянию в обучающем наборе.

Поскольку входной набор состоит всего из 11 признаков, методы сокращения признаков, такие как PCA, не рекомендуются. Масштабирование, которое в некоторых моделях улучшает производительность и скорость сходимости, использовалось через StandardScaler(). Как указывалось ранее, мы хотели включить идею причинно-следственной связи, поэтому для прогнозирования использовались сдвинутые значения COVID, как показано ниже. Эти смены менялись, чтобы получить лучшие результаты.

Позже мы рассмотрели родственную задачу, в которой используются прошлые экономические (целевые) данные. Это привело к усовершенствованной схеме прогнозирования, которая может более точно отражать данные, которые будут доступны для предприятий и политиков, надеющихся прогнозировать и смягчать экономические проблемы.

Обучение/Моделирование

Подбор моделей

Чтобы изучить проблему, мы начали с простых моделей и добавляли сложности, пока не были удовлетворены результатами. Нашим первоначальным тестом была модель многомерной линейной регрессии (MLR), которая вернула отрицательный коэффициент корреляции R². После этого мы попробовали модели нейронной сети и регрессии опорных векторов, которые также вернули отрицательные значения R². На тот момент наша гипотеза заключалась в том, что высокая дисперсия целевых данных наряду с высокой корреляцией входных переменных ограничивала эффективность стандартных моделей. Имея это в виду, мы выбираем ансамблевые, усиленные и рекуррентные модели. Затем модели с многообещающими первоначальными результатами были дополнительно улучшены путем выбора гиперпараметров, а модели с плохими первоначальными результатами, такие как MLR, были исключены. Наш окончательный выбор моделей включает в себя сеть с долговременной кратковременной памятью (LSTM), случайный лес, ближайшие соседи, Catboost и т. д.

Методы обучения

Поскольку имеющиеся данные представляют собой данные временного ряда, перекрестная проверка K-Fold не может использоваться. Вместо этого мы использовали функцию TimeSeriesSplit из scikit-learn, поскольку отслеживание индексов времени имеет решающее значение для наших экспериментов. Когда дело доходит до выбора гиперпараметров, используются следующие модели вместе с соответствующими гиперпараметрами:

models = [RandomForestRegressor(),KNeighborsRegressor(), xgb.XGBRegressor(objective=’reg:squarederror’, random_state=42), LGBMRegressor(), CatBoostRegressor(verbose=False)]
param_RF = {‘n_estimators’: [20],’max_depth’ : [5,10,15] }
param_KNR = { ‘n_neighbors’:[5,10,15,20,25] }
param_XGB = {}
param_Cat = {}
param_lgbm = {}
params = [param_RF, param_KNR, param_XGB, param_lgbm, param_Cat]
gsearch = GridSearchCV(estimator=models[i], cv=tscv, param_grid=params[i], scoring = ‘r2’)
gsearch.fit(X_train, y_train)
best_score = gsearch.best_score_
best_model = gsearch.best_estimator_

Варианты дизайна:

Как обсуждалось выше, мы использовали целевое кодирование состояний. Для каждой целевой переменной мы применяли модель отдельно, используя закодированное целевое среднее значение вместо состояния.

for column in df_econ_new.columns:
  if column != ‘statefips’:
    means = df_econ_new.loc[:'2020-07'].groupby('statefips')[column].mean()
    df_econ_encoded = df_econ_new.copy()
    temp = df_econ_encoded[‘statefips’].map(means)
    df_covid_encoded = df_covid_new.copy()
    df_covid_encoded[‘statefips’] = temp

Кроме того, поскольку на изменения экономических данных также влияют данные COVID за предыдущие временные метки, также необходимо использовать сдвиг во входных данных. Функция, используемая для сдвига данных, следующая.

def df_derived_by_shift(df,lag=0):
   df = df.copy()
   if not lag:
       return df
   cols ={}
   for i in lag:
       for x in list(df.columns):
              if not x in cols:
                    cols[x] = [‘{}_{}’.format(x, i)]
              else:
                    cols[x].append(‘{}_{}’.format(x, i))  
   for k,v in cols.items():
      columns = v
      dfn = pd.DataFrame(data=None, columns=columns, index=df.index)
      i = 0
      for c in columns:
         dfn[c] = df[k].shift(periods=lag[i]*51) ## this is             because we want to shift all the 51 states\
         i = i+1
      df = pd.concat([df, dfn], axis=1)
return df

Мы предложили два варианта дизайна, в которых мы варьируем входное пространство:

Используйте данные COVID вместе со сдвинутыми версиями на 7, 14 и 21 день.
Используйте те же данные на шаге (а) вместе со сдвинутыми версиями экономических данных на 7, 14 и 21 день.

delay_covid = [7,14,21]
delay_econ = [7,14,21]
df_covid = df_derived_by_shift(df_covid, delay_covid)
df_econ = df_derived_by_shift(df_econ, delay_econ)

В качестве обучающей выборки были выбраны данные между февралем и июлем, а тестовой выборкой был август. Поскольку у нас есть данные обучения за 6 месяцев, мы использовали tscv = TimeSeriesSplit(n_splits=5), поскольку в этом случае обучающие наборы будут лучше интерпретироваться.

Результаты

Оценка модели

В следующей таблице мы суммируем основные результаты моделей, которые мы получили в этом проекте.

Несколько показателей использовались для оценки производительности выбранных моделей с помощью следующей функции:

def regression_results(y_true, y_pred):
  #Regression metrics
  explained_variance=metrics.explained_variance_score(y_true,      y_pred)
  mean_absolute_error=metrics.mean_absolute_error(y_true, y_pred)
  mse=metrics.mean_squared_error(y_true, y_pred)
  median_absolute_error=metrics.median_absolute_error(y_true, y_pred)
  r2=metrics.r2_score(y_true, y_pred)
  print(‘explained_variance: ‘, round(explained_variance,4))
  print(‘r2: ‘, round(r2,4))
  print(‘MAE: ‘, round(mean_absolute_error,4))
  print(‘MSE: ‘, round(mse,4))
  print(‘RMSE: ‘, round(np.sqrt(mse),4)

Оценка модели проводилась с использованием метрики R². Были оценены другие показатели, такие как среднеквадратическая ошибка, средняя абсолютная ошибка и среднеквадратическая ошибка, и результаты можно найти в файлах .txt на Github. Причина того, что R² является важной метрикой, заключается в том, что целевые выходные значения малы по величине. Величина целевых переменных, представляющих интерес, составляет порядка 10⁻², поэтому, например, MAE 0,03 является очень большим и не может использоваться.

В приведенной выше таблице видно, что, хотя модель LSTM хорошо работает, когда во входные данные включены экономические данные, она испытывает трудности по сравнению с другими моделями, когда в ней есть только данные о COVID. Этот тип модели особенно подходит для анализа временных рядов, когда известны прошлые значения целевой переменной.

Используя показатель R², мы видим, что CatBoost — это модель, которая превзошла другие модели, представленные в таблице выше. Как мы также видим, добавление смещенных версий экономических данных значительно улучшает результаты во всех случаях, за исключением использования случайного леса для прогнозирования общих расходов.

Инсайты

В конечном итоге мы решили использовать целевое кодирование переменной состояния. Мы исследовали модель, не зависящую от государства. Для стандартизации каждого состояния входные и целевые переменные масштабировались до минимального и максимального значений для каждого состояния отдельно. Затем модель обучалась, зная только масштабированные входные переменные и соответствующие запаздывающие переменные, но не зная, какому состоянию соответствует точка данных. Мы обнаружили, что эта модель работает значительно хуже. Этот вывод свидетельствует о том, что на экономику влияет что-то помимо простого распространения COVID, например, государственная политика или поведение общества в отношении вируса.

Для дальнейшего изучения данных мы изучаем важность входных функций для результатов модели. Используя Catboost в качестве примера, мы видим, что классификация штатов играет очень большую роль в предсказателе, когда включены только данные COVID. Поскольку statefips был закодирован, его значение содержит среднее значение переменной spend_all для этого состояния. Следовательно, присвоенная высокая важность подразумевает, что модель имеет высокий уклон в сторону среднего значения временного ряда.

И наоборот, когда эконометрические данные также включаются в качестве входных данных, наиболее важными переменными становятся лаги целевой переменной и ее подкатегорий. Модель демонстрирует более высокую автокорреляцию во временном ряду.

Мы также наблюдаем, что чем более стационарной и низкой дисперсией является цель, тем большее значение модель придает значению предыдущей недели. В переменной занятости значение остается гораздо более стабильным от недели к неделе, и поэтому модель может в первую очередь полагаться на значение предыдущей недели независимо от штата или других факторов.

Ниже приведен код, используемый для получения пяти наиболее важных функций, выбранных протестированными моделями:

features = list(df_covid_encoded.columns.values)
importances_full = best_model.feature_importances_
indices_full = np.argsort(importances_full)
indices_full = indices_full[len(indices_full)-5:len(indices_full)]
title = ‘Top 5 features when using ‘+ model_names[i]+ ‘ on COVID & Econ data to predict ‘+ str(column)
plt.title(title)
plt.barh(range(len(indices_full)), importances_full[indices_full], color=’b’, align=’center’)
plt.yticks(range(len(indices_full)), [features[i] for i in indices_full])
plt.xlabel(‘Relative Importance’)
plt.show()

Вывод

В этом проекте мы исследовали связи между данными о тенденциях COVID-19 и экономическими показателями в Соединенных Штатах. Наши результаты не только доказали прогностическую силу данных о пандемии в других областях временных рядов, но и установили основу для относительно новой проблемы в области интеллектуального анализа данных и аналитики. При ограниченных вычислительных ресурсах и стандартных методах статистической обработки данных мы достигли коэффициента R², близкого к 0,85 R², в нашей самой сильной модели.

Несмотря на то, что наше первоначальное исследование показало, что показатели данных COVID-19 не сильно коррелировали с экономическими характеристиками из-за высокой изменчивости первых и контрастной стабильности вторых, мы смогли выявить скрытые связи с нашим выбором обученных моделей. Благодаря этому процессу мы узнали о ненадежной природе предсказания временных рядов. Часто нам приходилось смотреть за пределы набора данных, чтобы по-настоящему понять факторы, влияющие на рост и падение наших целевых переменных. Важность знания предметной области и понимания внешних обстоятельств были столь же ценны при принятии нами решений, как и техническое мастерство. Легко переборщить с разработкой функций и заставить данные отображать неточную версию реальности. Все наши усилия были сосредоточены на том, чтобы позволить данным рассказать свою собственную историю.

Будущая работа

В будущем возможные расширения проекта включают предварительное обучение более требовательных к данным моделей, таких как LSTM, на данных о прошлой пандемии. Это может выявить сходство между историческими кризисами в области здравоохранения и предсказать цели с большей уверенностью. Объединение функций временных рядов из этого набора данных с другими отобранными вручную функциями, такими как температура, календарный сезон и региональная политика, также, вероятно, повысит производительность модели. Другое интересное расширение включает добавление большей интерпретируемости нашим результатам. Объяснимый искусственный интеллект (ИИ) — расширяющаяся область. Было бы интересно разработать модель, способную объяснить его «мыслительный процесс» простым языком для широкой публики.

Мы также можем расширить вариант использования модели, введя гипотетические входные данные, такие как прогнозы COVID-19 от Института показателей и оценки здоровья (IHME) Вашингтонского университета. Расширив модель таким образом, мы могли бы позволить политикам лучше предвидеть последствия пандемии и разрабатывать меры для смягчения негативных последствий. Аналогичным образом, рассмотрение подкатегорий экономических переменных в нашем наборе данных позволит получить представление об отраслях и сегментах населения, которые больше всего пострадали от пандемии.

использованная литература

Brotherhood, L., Kircher, P., Santos, C., & Tertilt, M. (2020, май). Экономическая модель эпидемии COVID-19: важность тестирования и возрастной политики. Институт экономики труда IZA, 13265. http://ftp.iza.org/dp13265.pdf

Радж Четти, Джон Фридман, Натаниэль Хендрен, Майкл Степнер и команда Opportunity Insights Team. (2020) Экономические последствия COVID-19: данные из новой общедоступной базы данных, созданной с использованием данных частного сектора. https://opportunityinsights.org/wp-content/uploads/2020/05/tracker_paper.pdf

Экономика COVID. (2020). Центр исследований экономической политики. https://cepr.org/content/covid-economics-vetted-and-real-time-papers-0

Аналитика темной лошади. (2020). Статистика возможностей. Экономический трекер. Получено 10 сентября 2020 г. с https://www.tracktherecovery.org/

Хаддадпур, Ф., Камани, М.М., Мохтари, А., и Махдави, М. (2019). Федеративное обучение со сжатием: унифицированный анализ и надежные гарантии.

МакМахан, Б., Мур, Э., Рэймидж, Д., Хэмпсон, С., и Аркас, Б. А. (2017). Искусственный интеллект и статистика. ПМЛР.

Росс, С.П., и Росс, С.Ю. (2020, 26 мая). Прогнозирование экономики во время COVID-19. Йельская школа менеджмента. https://som.yale.edu/blog/forecasting-the-economy-during-covid-19

Ван, В., Лю, К., Лян, Х., Джоши, Г., и Пур, В. (2020). Решение проблемы несогласованности целей в гетерогенной федеративной оптимизации. препринт arXiv: arXiv:2007.07481.

Четти, Радж, Джон Фридман, Натаниэль Хендрен и Майкл Степнер. 2020. «Экономические последствия COVID-19: данные из новой общедоступной базы данных, созданной с использованием данных частного сектора». Статистика возможностей (декабрь).

Лалмуанавма, Самуэль, Джамал Хуссейн и Лалринфела Чхакчхуак. 2020. Применение машинного обучения и искусственного интеллекта для пандемии Covid-19 (SARS-CoV-2): обзор. Хаос, солитоны и фракталы 139:110059. https://doi.org/10.1016/j.chaos.2020.110059.

Оу, Шици, Синь Хэ, Вэйци Цзи, Вэй Чен, Ланг Суй, Ю Ган, Цзыфэн Лу и др. нд «Модель машинного обучения для прогнозирования влияния COVID-19 на спрос на автомобильный бензин в США». Энергия природы 5 (9). 10,1038/с41560–020–0662–1.

Сингх, Панн Н., Сонбхадра С. Кумар и Агарвал Сонали. 2020. «Анализ эпидемии COVID-19 с использованием алгоритмов машинного обучения и глубокого обучения». medRxiv. 10.1101/2020.04.08.20057679.

Штифанич, Даниэль, Елена Мусулин, Адриана Миочевич, Санди Б. Шегота, Роман Шубич и Златан Кар. 2020. «Влияние COVID-19 на прогнозирование цен на акции: интеграция стационарного вейвлет-преобразования и двунаправленной долговременной кратковременной памяти». Сложность 2020:12. 10.1155/2020/1846926.

Т. Давенпорт, Р. Калакота, Потенциал искусственного интеллекта в здравоохранении,Fut Healthc J, 6 (2) (2019), стр. 94–98, 10.7861/futurehosp.6– 2–94