Прогнозирование COVID-19 с помощью налоговых деклараций

Чтобы узнать больше о COVID-19, перейдите на covid19.topos.com

Неравенство доходов и COVID-19

Связь между неравенством доходов и COVID-19 широко освещалась различными источниками за последние 60 дней. Результаты показывают, что количество смертей и госпитализаций намного выше в районах с низким доходом и в городах с высоким уровнем неравенства [1]. Большинство этих исследований опираются на данные о доходах, предоставленные переписью населения США, которая является самооценкой, часто экстраполируется на основе относительно небольших выборок (как в ACS [2]) и довольно проста в способе измерения дохода (например, медианное значение домохозяйства). Доход"). Более подробное и полное представление о доходах можно получить, изучив данные IRS по подоходному налогу. Налоговые данные доступны только для общественности на уровне почтового индекса, но предоставляют подробный экономический портрет районов, особенно в отношении требуемых вычетов (иждивенцев, прирост капитала, образовательные кредиты и т. Д.). И вместо того, чтобы добровольно сообщать сами (как в случае с переписью / ACS), налоговые декларации требуются по закону с последствиями для ложной отчетности.

Таким образом, в то время как данные переписи могут сказать нам, сколько людей в географическом регионе имеют зарплату в определенные интервалы или каков средний доход района, налоговые данные могут сказать нам, сколько людей зарабатывали 25-50 тысяч долларов, какая часть этих доходов подлежала вычету. (и по каким причинам), и сколько пошло на взносы на здравоохранение. В этой статье мы изучаем взаимосвязь между подробными данными о подоходном налоге и случаями COVID-19 на уровне почтового индекса в Нью-Йорке.

Чтобы сфокусировать наше исследование, мы начали с налоговых показателей, которые обычно указывают на верхнюю и нижнюю часть экономического спектра, рассматривая налоговые вычеты, которые доступны только для тех, кто получает доход ниже определенного порога (например, налоговый кредит на ребенка), или доход от финансовых инструментов в целом. используется богатыми (например, прирост капитала). В таблице ниже показан выбор коэффициентов корреляции между показателями на душу населения и доходом в Нью-Йорке.

Самая сильная корреляция (R = 0,79) со случаями на душу населения - это средняя сумма налогового кредита на ребенка в налоговой декларации. В год, когда доступны самые последние налоговые данные (2017 г.), физическое лицо или семья должны были заработать менее 75 тысяч долларов или 110 тысяч долларов (соответственно), чтобы претендовать на это. Сумма, которую вы получаете, зависит от того, сколько вы зарабатываете и сколько детей в вашей семье; таким образом, он служит индикатором для семей с низким и средним доходом, которым нужно кормить много ртов. Почтовые индексы, которые видят самые высокие ставки налоговых льгот на детей, относятся к районам с низким уровнем среднего класса, таким как 11239 (Карнаси), 11436 (Ямайка) и 10462 (Пелхам). На другом конце спектра почтовые индексы, которые показывают самые низкие уровни налоговых льгот на детей в каждой декларации: 10005 (Нижний Манхэттен), 10021 (Верхний Ист-Сайд) и 10003 (Юнион-сквер) - районы с некоторыми из самых богатых жителей. в городе.

Еще один сильный индикатор случаев COVID-19 на душу населения - это доля доходов, требующих прироста капитала. Прирост капитала - это отражение дохода, полученного от продажи собственности или инвестиций, что является формой богатства, которая обычно приносит пользу высшим слоям общества. Почтовые индексы с наибольшей долей налоговых деклараций, заявляющих о приросте капитала: 10282 (Tribeca) и 10021 (Lenox Hill), где 60% и 56% налоговых деклараций включают прирост капитала. На другом конце спектра 10452 (Высокий мост) и 10457 (Западный Бронкс) имеют 1% прибыли с заявками на прирост капитала. Жители кварталов в нижнем квартиле налоговых деклараций, заявляющих о приросте капитала, примерно в 4 раза чаще умирают от COVID-19, чем жители районов в верхнем квартиле.

Одним из наиболее сильных показателей с отрицательной корреляцией является процент доходов от отчислений по страхованию здоровья самозанятыми. Чтобы иметь право на этот вычет, физическое лицо должно быть владельцем бизнеса, который оплачивает свою страховку. Почтовые индексы с высокой долей самозанятых лиц с отчислениями на медицинское страхование: 10024 (Верхний Вест-Сайд), 10021 (Верхний Ист-Сайд) и 10022 (Грамерси-Парк) - каждый с 7–9% возвратов, требующих этого вычета. На другом конце спектра: 10455 (Хантс-Пойнт), 10453 (Моррис-Хайтс) и 10472 (Пелхэм) - каждый с 0 возвратами, требующими этого вычета.

Прогнозирование случаев

С таким количеством сильных линейных взаимосвязей между случаями COVID-19 на душу населения и показателями дохода IRS в Нью-Йорке, мы решили построить регрессионную модель, чтобы посмотреть, можем ли мы предсказать случаи [3] в пределах почтового индекса, используя только налоговые данные. [4]

Выбор подходящих функций для модели без переобучения или смещения прогнозов - сложная проблема. Мы установили 2 критерия для управления нашим выбором: (1) значения p должны быть ниже 0,001 и (2) 95% доверительный интервал (установленный путем выполнения «непараметрической» повторной выборки начальной загрузки) оценочного значения R должен быть выше 0,5. . Эти два условия оставили нам 48 уникальных функций для обучения модели. Чтобы избежать переобучения и мультиколлинеарности, мы решили моделировать данные, используя собственный [5] алгоритм регрессии гребня ядра. Этот алгоритм сочетает в себе два свойства, которые снимают наши опасения - регуляризацию и трюк с ядром. На высоком уровне трюк с ядром позволяет нам обнаруживать закономерности в данных в пространстве с более высокой размерностью, сохраняя при этом входную размерность на низком уровне. Регуляризация накладывает штраф на функции, чтобы минимизировать их влияние, тем самым предотвращая переоснащение. Используя этот подход, мы достигли R2 0,88 и NRMSE [6] 9% с использованием 10-кратной перекрестной проверки.

Возможность расширения на другие регионы

Имея в руках эти сильные результаты, мы хотели увидеть, насколько модель, обученная на налоговых данных Нью-Йорка, может быть расширена для других регионов. Данные о налогах и COVID-19 сильно искажены - в Нью-Йорке гораздо выше доход и количество случаев заболевания, чем где-либо еще в стране; Чтобы смягчить это, мы рассмотрели нормализованные данные о налогах и COVID по региону. Мы собрали данные для четырех дополнительных городов: Чикаго, Балтимора, Сан-Франциско и Ричмонда и запустили модель, пытаясь предсказать нормализованные совокупные случаи для каждого города. Точность модели показана в таблице ниже:

Модель очень хорошо переносится в Чикаго, где R2 составляет 0,72, а NRMSE - 11%, что означает, что прогнозируемые совокупные случаи обычно составляют + - 11% от фактического числа. Напротив, в Ричмонде модель показала плохие результаты: R2 составил 0,5, а NRMSE - 15%. Одна из возможных гипотез для объяснения эффективности в разных регионах - это рассмотрение точности модели в зависимости от сходства между Нью-Йорком и другими городами. Как и в предыдущем посте Изучение COVID в схожих географических регионах, мы построили векторы для каждого города на основе показателей, имеющих статистически значимую связь со случаями COVID, таких как пригородный транспорт и типы жилых домов, и посмотрели на расстояние между местами в этом многомерном пространстве. Космос. Хотя у нас есть только четыре точки данных, ясно, что модель лучше работает в городах, которые больше похожи на Нью-Йорк с точки зрения транспорта и типов зданий. В среднем модель также имеет более низкий уровень ошибок в более плотных городских районах. Глядя на приведенную выше карту с частотой ошибок в Чикаго и Балтиморе, можно увидеть, что центрально расположенные почтовые индексы, такие как Великолепная миля, Чикаго или Мидуэй-Восток, Балтимор, примерно на 1% + меньше фактического числа случаев. Напротив, почтовые индексы для жилых домов на периферии, такие как Монтклер, Чикаго или Эссекс, Балтимор, имеют скидку более 20%.

В дополнение к обучению модели на данных Нью-Йорка мы также протестировали модель, обученную вместе в четырех городах, предсказывая случаи для пятого нераскрытого. Например, мы обучили модель, используя данные из Балтимора, Ричмонда, Нью-Йорка, Сан-Франциско, и спрогнозировали кумулятивные случаи в Чикаго. Включение нескольких городов значительно улучшило характеристики модели для Чикаго, достигнув R2 0,84 и NRMSE 9%. Однако введение дополнительных городов снизило эффективность модели в случае Балтимора и Нью-Йорка. В таблице ниже показаны характеристики модели для различных конфигураций обучающих и тестовых наборов.

Тот факт, что одни только данные IRS могут объяснить более 80% вариаций в случаях COVID-19, говорит о многих выводах, которые связывают влияние пандемии с неравенством доходов. Изучение точек данных, выходящих за рамки традиционной эпидемиологии, может позволить политикам, медицинским работникам и другим лицам лучше предвидеть последствия будущих пандемий. Вы можете изучить дополнительные данные IRS и случаи COVID-19 на нашей интерактивной карте здесь.

Сноски:

  1. Неравенство, измеряемое индексом Джини на уровне штата
  2. ACS отправляется примерно на 295 000 адресов ежемесячно (или 3,5 миллиона в год).
  3. Конечно, количество случаев в Нью-Йорке растет с каждым днем, поэтому для этого упражнения мы прогнозируем относительное / нормализованное количество кумулятивных случаев в Нью-Йорке на определенную дату (30 мая 2020 г.)
  4. Поскольку данные сильно искажены вправо - это означает, что всего несколько почтовых индексов имеют очень большое количество регистров, в то время как многие другие имеют небольшое количество (относительно), мы преобразовали данные (извлекая квадратный корень) для более нормального распределения. .
  5. Расширение встроенного списка ядер в sci-kit: научитесь включать ядро ​​Power (также известное как не исправленное треугольное ядро)
  6. Нормализованная среднеквадратическая ошибка