Многомерный линейный регрессионный анализ факторов общественного здравоохранения, влияющих на ожидаемую продолжительность жизни в мире

Фон:

Ожидаемая продолжительность жизни - это основной показатель для оценки здоровья населения. Он показывает нам средний возраст смерти среди населения. По оценкам, в досовременном и бедном мире ожидаемая продолжительность жизни составляла 30 лет во всех частях света. С 1900 года средняя продолжительность жизни в мире увеличилась более чем вдвое и сейчас превышает 70 лет. Неравенство в продолжительности жизни по-прежнему очень велико в разных странах. В последнее время страной с самой низкой ожидаемой продолжительностью жизни является Центральноафриканская Республика - 53 года, в то время как в Японии ожидаемая продолжительность жизни на 30 лет больше.

Цель:

Цель этого проекта заключалась в том, чтобы лучше понять взаимосвязь между различными факторами общественного здоровья и продолжительностью жизни в мире. Как страны могут лучше распределять свои ограниченные ресурсы для увеличения общей продолжительности жизни своего населения? Чтобы ответить на этот вопрос, были созданы многомерные модели линейной регрессии, которые затем оценивались для определения наилучшего соответствия. Ссылка на Github

Источник данных:

Хранилище данных Глобальной обсерватории здравоохранения (GHO) при Всемирной организации здравоохранения (ВОЗ) отслеживает состояние здоровья, а также многие другие связанные факторы для всех стран. Окончательный набор данных содержит 2939 наблюдений, где каждая строка представляет страну за определенный год. Всего имеется 193 страны с данными с 2000 по 2015 годы. Характеристики включают факторы иммунизации, факторы смертности, экономические факторы, социальные факторы и другие факторы, связанные со здоровьем.

Список возможностей:

Первоначально для базовой модели использовались обзор литературы и знания предметной области, чтобы выбрать, какие предикторы могут иметь наибольшее влияние на продолжительность жизни. Кроме того, были созданы еще 4 функции, которые могут повлиять на продолжительность жизни и лучше объяснить данные.

Эти спроектированные функции включают в себя:

  1. Размер популяции - был создан диапазон популяции, который включает три категории; Маленький, средний и большой.
  2. Образ жизни - переменная взаимодействия, учитывающая потребление алкоголя и ИМТ.
  3. Экономика - переменная взаимодействия между населением и валовым внутренним продуктом (ВВП).
  4. Коэффициент смертности - соотношение между взрослой и младенческой смертностью.

Преодоление данных:

Для очистки и исследования данных использовались различные библиотеки Python, такие как Pandas. Также использовались Numpy, Scipy и Sklearn для анализа данных, описательной статистики и моделирования.

Во-первых, все фрагментированные наблюдения из набора данных были удалены. Чтобы увидеть, соответствуют ли данные предположениям модели линейности, для каждого предиктора с целевой переменной были созданы и оценены графики разброса. При необходимости, чтобы соответствовать предположениям модели, некоторые функции были преобразованы для достижения более линейной связи и нормального распределения.

Затем было оценено допущение модели мультиколлинеарности между выбранными предикторами путем создания тепловой карты корреляции. Порог мультиколлинеарности был назначен равным 0,8, а переменные выше порога были отсечены.

После этого все возможные случаи выбросов были оценены путем просмотра диаграмм "усы-коробочки" и диаграмм рассеяния. Экстремальные наблюдения, искажавшие данные, были удалены.

Полученные результаты:

Первая модель для прогнозирования продолжительности жизни использовала функции; ИМТ, ВИЧ, худоба 1–19, ВВП, коэффициент смертности, образ жизни, образование, уровень детской смертности, экономика и численность населения. При квадрате R, равном 0,804. Другими словами, исходная модель объясняет 80% вариации ожидаемой продолжительности жизни (по сравнению со средней линией).

Была построена другая модель, в которой данные были масштабированы, а незначительные предикторы (p-значение ›0,05) из базовой модели были удалены. Поскольку различные функции имеют разные единицы измерения и данные были преобразованы в соответствии с допущениями модели, масштабирование данных позволяет сделать результаты более сопоставимыми и интерпретируемыми.

Чтобы проверить модель на другое предположение модели линейной регрессии, было оценено распределение остатков для гомоскедастичности. Остатки, хотя и разбросанные, все же предполагали незначительную положительную линейную взаимосвязь. Эта гетероскедастичность, вероятно, связана с искажением распределения переменных-предикторов или отсутствием функций, о которых в наборе данных нет информации.

Для оценки модели также использовался тестовый сплит-тест, в котором 80% данных использовалось для обучения модели, а оставшиеся 20% - для прогнозирования модели. Средняя абсолютная ошибка модели составила 3,02. Было проведено еще одно тестовое разделение поездов, в которое были включены все функции, даже те, которые считались незначительными, а средняя абсолютная ошибка немного улучшилась до 2,99.

Заключение:

Странам, стремящимся увеличить продолжительность жизни во всем мире, предлагается сосредоточить свои ресурсы в основном на программах и политике, направленных на повышение осведомленности о ВИЧ и профилактику. Интересно отметить, что, хотя исследования и поддержка ВИЧ увеличились, это все еще является серьезным бременем для развивающихся стран.

Кроме того, можно было бы предложить странам разрабатывать больше политики и выделять больше ресурсов, которые увеличивают доступ к образованию. Результаты поднимают еще один вопрос: не уделяют ли некоторые страны первоочередного внимания образованию или у них нет достаточных ресурсов для обеспечения большего образования? Неужели эти страны слишком сосредоточены на выживании до такой степени, что образование становится средним?

Следующим возможным шагом могло бы стать разделение «развивающихся» и «устоявшихся» стран, поскольку факторы общественного здравоохранения, влияющие на каждый тип, могут быть очень разными. Развивающиеся страны все еще испытывают недостаток в основных ресурсах, в то время как у развитых стран могут быть совершенно другие проблемы, такие как сердечно-сосудистые заболевания и рак (больше данных!).

Вот ссылка на репозиторий Github, который включает код и далее объясняет шаги, которые я предпринял для этого проекта. Если у вас есть вопросы, не стесняйтесь оставлять комментарии или связываться со мной в LinkedIn!