По данным Центра по контролю за заболеваниями, распространенность коронавирусных инфекций более чем в десять раз превышает официальное количество случаев в шести регионах США. Под распространенностью здесь понимается «доля населения, пораженная каким-либо заболеванием, таким как коронавирус, в определенное время». Прогнозы распространения коронавируса часто включают оценки распространенности. Потому что, когда распространенность достигает 60%, коллективный иммунитет достигается, по крайней мере, мы на это надеемся. Предполагая, что иммунитет сохраняется, а распространенность хорошо рассчитана. Недавние исследования, проведенные в Испании и Англии, показывают, что иммунитет угасает.

Коллективный иммунитет и тихая инфекция: друзья или враги?

Во всем мире зарегистрировано более 10,7 миллиона диагностированных случаев, в том числе более 516 тысяч случаев смерти с октября 2019 года. Цифры, опубликованные Центром по контролю за заболеваниями (C.D.C), предполагают, что эти цифры могут сильно отличаться от реального количества инфицированных людей.

Имеет ли это значение в мире, где мы стремимся к коллективному иммунитету? Да, это имеет значение с точки зрения вероятной скрытой инфекции. То есть количество людей, неосознанно переносящих вирус, кажется более важным, чем мы изначально предполагали. Каждый из этих неосознанно инфицированных людей может заразить других, просто выходя на улицу. Однако даже с учетом этих других инфекций, фактические цифры намного ниже 60% -го порога. C.D.C. проверила образцы крови, собранные в коммерческих лабораториях у людей, пришедших на стандартные обследования, такие как тесты на диабет. Он проанализировал эти образцы на наличие антител к вирусу, которые показали бы предыдущую инфекцию даже при отсутствии симптомов. Разница между официально зарегистрированными инфекциями и фактической распространенностью (по данным этого исследования) достигла пика в Миссури. По данным C.D.C., на 26 апреля 2,65 процента населения были инфицированы этим вирусом. учиться. Хотя многие люди могли не иметь симптомов, эта оценка примерно в 24 раза превышает официальный показатель: почти 162 000 по сравнению с 6 800. 2,65 процента - значительно ниже 60%. Другими словами, мы находимся на низком уровне, когда инфекции агрессивно распространяются, потому что многие люди незаметно заражаются и остаются незамеченными. Тем не менее, мы не достигли слабого места коллективного иммунитета. Возможно, нам придется подождать вакцины.

По мере продвижения исследований мы понимаем, что время и место определения распространенности играет важную роль в итоговых значениях. Например, к 1 апреля в Нью-Йорке было зарегистрировано 53 803 случая заражения. Тем не менее, по данным C.D.C, фактическое число заражений, вероятно, в двенадцать раз выше, почти 642 000 случаев. учиться. Тем не менее, с оценкой распространенности в 6,93 процента в этом исследовании, Нью-Йорк значительно ниже 21 процента, определенного апрельским опросом штата. В предыдущем опросе изучались люди, нанятые в супермаркетах. Так что выборка могла быть необъективной. В него вошли исключительно люди, которые ходили по магазинам во время пандемии - молодые люди или те, кто уже заразился вирусом и чувствовал себя в безопасности.

Являются ли некоторые люди жертвами инфекций COVID-19?

В этом контексте факторы уязвимости и риска заражения COVID-19 представляют собой фундаментальные исследовательские проблемы, которые могут помочь в построении более надежных прогнозов и оценок распространенности коронавируса. Как команда специалистов по обработке данных, мы рассмотрели два пути, чтобы понять, кто может быть более подвержен влиянию. Первый метод является подлинно статистическим, тогда как второй заключается в использовании инструмента Машинное обучение, оптимизированного для работы с небольшими объемами данных. Таким образом, это не инструмент для работы с большими данными (то есть миллионы данных), а скорее инструмент для малых данных, поэтому он хорошо подходит для медицинских тем. База данных, которую мы использовали, стала общедоступной мексиканским правительством в соответствии с постановлением об открытых данных. Он используется в многочисленных исследованиях и статьях, в том числе в статье медицинского исследователя Омара Яксмехена Белло-Чаволлы и его команды, который также является любезным рецензентом данной статьи. Записи в этой базе данных были собраны из мексиканских больниц, что снова вызывает предвзятость. Так же, как получение образцов в супермаркете приводит к предвзятости по сравнению с зараженными образцами, так и при проверке населения в больнице.

Кроме того, смещение усиливается при рассмотрении пациентов с симптомами COVID-19. Поэтому мы не исследовали распространенность как таковую. Мы сосредоточились на взаимосвязи между ранее существовавшими заболеваниями и инфекцией COVID-19, чтобы внести свой вклад в более точные прогнозы коронавируса. Среди ранее существовавших состояний, о которых сообщается в базе данных, есть sthma, иммуносупрессия, диабет, гипертония, сердечно-сосудистые заболевания, ожирение, курение и хронические заболевания почек.

Глядя на статистику этой базы данных, мы видим, что соотношение женщин и мужчин примерно одинаково: 48,75% против 51,25%. Для каждого пятилетнего диапазона возраста (т. Е. От 24 до 29) около 10% записей попадают в этот интервал. Пациенты младшего и старшего возраста распределяются по-разному (т. Е. Около 10% пациентов в возрасте от 0 до 24 лет и 10% пациентов в возрасте от 65 до 120 лет). Для начала мы изучили соотношение людей, зараженных COVID-19, в общей базе данных, имея в виду, что эта база данных поступила из больниц. Результат составил 34%. Затем мы изучили долю людей, инфицированных определенными сопутствующими заболеваниями. Мы сосредотачиваемся на тех характеристиках, которые вызывают разницу в уровне инфицирования 10% по сравнению со средним эталонным показателем в 34%. Факторы, увеличивающие заражение (по сравнению со средним значением):

  • будучи мужчиной
  • старше 46 лет
  • диабет,
  • гипертония,
  • ожирение.

Заражены 38% мужчин, более 40% людей старше 46 лет, 47% людей с диабетом, 42% людей с гипертонией, 43% людей с ожирением. Как ни удивительно, согласно этим скромным предварительным соотношениям, следующие критерии практически не влияли на частоту инфекций: сердечно-сосудистые заболевания, курение, хронические заболевания почек. «Нейтральность» курения тем более удивительна, что существует несколько противоречивых отчетов о влиянии курения на риск заражения коронавирусом. Что еще более поразительно, если посмотреть на необработанные цифры, кажется, что беременность, астма и иммуносупрессия слегка «защищают» от заражения с соответствующими показателями инфицирования 25%, 23% и 26%. Или может быть только то, что люди с такими состояниями более осторожны.

Машинное обучение для прогнозирования заражения коронавирусом

Итак, что машинное обучение говорит об этих данных? Можем ли мы помочь предвидеть прогнозы и распространенность коронавируса на основе этой информации?

Мы загрузили упомянутую выше базу данных в наш инструмент машинного обучения и запустили его сто раз, чтобы получить сто моделей. Для каждой модели наш инструмент выбрал семь критериев для прогнозирования коронавируса. Следующие результаты - это то, что мы получаем, когда мы усредняем сто моделей. Во-первых, мы получаем точность 60%, что означает, что в 60% случаев прогноз заражения коронавирусом был верным на основе имеющихся данных. Это кажется довольно небольшим числом, но это не удивительно, поскольку в базе данных нет симптомов. Теоретически он не должен позволять прогнозировать заражение коронавирусом. Из 100 созданных моделей 93 используют возраст в качестве дискриминанта, 52 - пол, 35 - ожирение, 22 - диабет, 21 - иммунодепрессию, 18 - курение. Мы понимаем, что использовались вышеуказанные критерии, но не знаем, использовались ли они для включения или исключения субъектов. Из интерпретации статистики мы можем предположить, что возраст, пол, ожирение и диабет использовались для прогнозирования инфекции. Напротив, иммуносупрессия использовалась, чтобы помочь предсказать отсутствие инфекции. Курение стало неожиданностью, поскольку не оказало влияния на глобальную статистику.

Затем мы стремились продвинуть поиск еще дальше; мы решили сосредоточиться на молодых людях (в возрасте до 45 лет), не страдающих ожирением. Мы просмотрели необработанную статистику. 26% людей моложе 45 лет, не страдающих ожирением, в этой базе данных были инфицированы COVID-19. В этом случае усугубляющими факторами были возраст, пол, диабет, гипертония и заболевание почек с соответствующими показателями инфицирования 40%, 29%, 41%, 33% и 30%. «Защитными» факторами были: беременность, астма и иммуносупрессия с уровнем инфицирования 22%, 20% и 16%. Курение здесь снова было нейтральным.

Затем мы снова произвели 100 моделей с сопоставимой точностью, а именно 59%. И мы изучили факторы, используемые инструментом машинного обучения для построения моделей. В 100 моделях используется возраст, то есть все они, даже если полностью сосредоточены на людях моложе 45 лет. 32 модели используют курение. 27 человек страдают диабетом и 27 - астмой. 26 используют заболевание почек, а 23 - гипертонию. Эти результаты впечатляют. Два наиболее влияющих фактора на прогнозирование инфекций коронавирусом, а именно курение и заболевание почек, оказались нейтральными для всей базы данных. Курение также было нейтральным по отношению к этому конкретному подмножеству базы данных, как статистически, так и с точки зрения машинного обучения. Тем не менее, они оказывают существенное влияние на молодых людей, не страдающих ожирением. Курение - это большой сюрприз, потому что по статистике оно выглядит «нейтральным», хотя в сочетании с дополнительными факторами оно является повторяющимся определяющим фактором.

Забери: что дальше?

В этой статье мы использовали как статистику, так и инструмент машинного обучения, чтобы изучить факторы, влияющие на уязвимость к COVID-19, и внести свой вклад в прогнозирование коронавируса. Поскольку пандемия COVID-19 все еще прогрессирует, определение прогностических факторов остается глобальной проблемой. В этом исследовании мы столкнулись с обычными подозреваемыми с точки зрения факторов: возраста, пола. Здесь выясняется, что диабет играет значительную роль в опасности заражения (по сравнению только с серьезными осложнениями после заражения). Факторы заражения включают курение (предположительно, в качестве защиты). Хотя это является крайне спорным вопросом, курильщики, как правило, более восприимчивы к инфекционным респираторным заболеваниям и подвергаются более высокому риску развития тяжелых осложнений от этих инфекций. Это исследование является первым шагом в изучении этой мексиканской базы данных с использованием как статистического, так и машинного подхода. Мы очень благодарны мексиканским властям за обнародование такой ценной информации. Мы предоставим дополнительные исследования по той же теме. Следите за обновлениями!

Начни работу с ТАДА прямо сейчас!