В этой статье мы обсуждаем различные способы, которыми наука о данных может помочь в предотвращении смертей и инфекций от Covid, а также используемые алгоритмы и доступные наборы данных.

Общий обзор различных способов, которыми наука о данных может помочь в борьбе с пандемией коронавируса.

Ковид - проблема мирового масштаба. В отличие от предыдущих пандемий, таких как чума, лихорадка Эбола, атипичная пневмония, теперь мы наделены хорошо разработанными инструментами и методами сбора и управления данными, а также вычислительными ресурсами и алгоритмами для понимания и окончательной борьбы с распространением вируса.

Оценка смертности людей, инфицированных Covid, факторов риска, моделирование роста болезни, разработка вакцин и секвенирование гена - все это требует данных, и, следовательно, наука о данных может в этом помочь. Поэтому, в отличие от предыдущих эпидемий, борьба с Covid - это такая же война данных, как и медицинская война.

Текущие крупномасштабные проекты, связанные с Covid, в университетах, государственных учреждениях и компаниях

  1. В США есть проект отслеживания Covid, который объединяет все данные в одном месте (https://covidtracking.com/) для отслеживания роста в целом.
  2. Европейский Союз имеет ряд проектов (https://ellis.eu/covid-19/projects).
  3. Индийские университеты, такие как IISc, реализовали ряд проектов, связанных с Covid (https://covid19.iisc.ac.in/)
  4. У Всемирного банка есть проекты (https://www.worldbank.org/en/who-we-are/news/coronavirus-covid19), связанные с влиянием Covid на экономику, такие как прогнозы относительно того, какой будет спрос. для товаров и услуг в странах, пострадавших от Covid.
  5. IEEE финансирует массовые проекты, связанные с Covid (https://hac.ieee.org/funding-opportunities/covid-19-projects/)

Некоторые из доступных проектов могут иметь доступное финансирование, но могут быть ограничены в зависимости от страны или региона. Например, проекты в США могут быть ограничены исследователями из США и так далее.

Использование науки о данных для отслеживания контактов лиц, инфицированных Covid

Отслеживание контактов имеет решающее значение для контроля за распространением пандемии, такой как Covid, за счет знания, с кем каждый инфицированный человек контактировал в течение последних нескольких дней, и последующего карантина в ответ, чтобы болезнь не могла распространяться дальше.

Многие правительства представили приложения для отслеживания контактов. Вот несколько примеров:

  1. Сингапурское приложение для отслеживания контактов SQREEM Covid использует модели машинного обучения для моделирования и прогнозирования того, сколько людей могло контактировать с данным человеком за определенный период времени. Он работает следующим образом: с учетом местоположения дома и офиса человека и количества устройств, которые заняли позиции (в блоках по 5 квадратных метров) за заданный период времени, он предсказывает количество людей, которые могут контактировать с инфицированными людьми. Https://www.aithority.com/technology/analytics/tracing-a-million-steps-sqreem-launches-ai-driven-contact-tracing-and-communications-platform-to-fight-covid-19/
  2. Приложение NHS Covid 19 Великобритании https://www.nhsx.nhs.uk/covid-19-response/nhs-covid-19-app/).
  3. Индийское приложение Aarogya Setu

Модели, использующие инструменты визуализации данных и аналитики, могут использоваться вместе с приложениями для отслеживания контактов для отслеживания распространения вируса. Графические модели можно использовать для моделирования связей людей и оценки вероятности распространения болезни в той или иной местности.

Использование науки о данных для отслеживания распространения Covid и принятия решения о том, какие области заблокировать, а какие открыть

Исследователи Массачусетского технологического института обучили нейронную сеть предсказывать, насколько карантин влияет на контроль распространения Covid. Они использовали эпидемиологические модели (используемые для анализа распространения эпидемий), включая модель SEIR и модель SIR (восприимчивые инфицированные выздоровели) дифференциальных уравнений, добавили некоторые параметры для карантинного контроля и подогнали общую модель к реальным данным с помощью нейронной сети. Их статья находится здесь: https://www.medrxiv.org/content/10.1101/2020.04.03.20052084v1

Подробнее о таких моделях можно прочитать в статье в Википедии: https://en.wikipedia.org/wiki/Compartmental_models_in_epidemiology

Хорошее введение в модель SIR можно найти здесь https://science.thewire.in/the-sciences/coronavirus-pandemic-infectious-disease-transmission-modelling-kermack-mckendrick-theory-seir-model/

Использование науки о данных для построения прогнозов, насколько кривая Covid поднимется, сколько времени потребуется, чтобы спуститься, и как ее можно сгладить.

Те же алгоритмы моделирования эпидемии (такие как SIR и SEIR), которые мы обсуждали ранее, можно использовать для формирования прогнозов кривой Covid для конкретной страны или региона. Такая кривая предсказывает, когда она станет плоской и насколько поднимется. Используя эти данные, правительства могут принимать решения о том, когда и как открыть более широкую экономику.

Используя модель, основанную на данных, одна компания выпустила прогнозы для всех штатов США и других стран в отношении графика роста числа инфекций и смертей Covid. Это также было основано на модели SEIR для моделирования эпидемии. Https://covid19-projection.com/

Использование науки о данных для прогнозирования того, насколько человек уязвим для Covid, и потребуется ли ему госпитализация

Риск заражения и риск серьезности заражения человека, контактирующего с Covid, можно предсказать, используя различные характеристики, такие как возраст, пол, социальные условия, доход, район проживания, род занятий, особенности образа жизни и т. Д. Модель машинного обучения может быть оснащена всеми этими функциями. с использованием существующих данных о пациентах и ​​используется для прогнозирования риска. Используя эти знания, врачи смогут лучше решить, кому нужна немедленная госпитализация, кому может понадобиться аппарат искусственной вентиляции легких, а кого устроит домашний карантин.

В британском медицинском журнале Lancet есть исследование факторов риска Covid с использованием имеющихся данных от пациентов Covid: «https://www.thelancet.com/journals/lanonc/article/PIIS1470-2045(20)30309-0/ полный текст"

Доступные наборы данных по Covid

Вот некоторые из доступных наборов данных:

  1. Https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

2. https://data.world/datasets/covid-19

3. Конкурсы Kaggle https://www.kaggle.com/tags/covid19

4. Набор данных China Daily https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/MR5IJN

5. Глобальный хакатон Covid https://covid-global-hackathon.devpost.com/

6. Общедоступные наборы данных от Google https://console.cloud.google.com/marketplace/browse?filter=solution-type:dataset&filter=category:covid19&pli=1

7. Сборник наборов данных https://www.marktechpost.com/2020/04/12/list-of-covid-19-resources-for-machine-learning-and-data-science-research/

Как данные и знания обмениваются между разными странами для борьбы с пандемией

Наука о данных также позволила эффективно обмениваться данными между разными странами. Поскольку Covid - это всемирное явление, обмен данными имеет решающее значение в борьбе с вирусом. Изучая условия в других странах и способы его распространения, политики могут помочь предотвратить Covid в своих странах. Например, они могут определить, что определенная область или конкретные пациенты более восприимчивы к Covid. Соответственно, они могут создавать политики и делать медицинские ресурсы более доступными для этих областей или этих групп пациентов.

Например, правительство Китая разместило в Интернете наборы данных о пациентах с коронавирусом из Ухани. То же самое относится к соответствующим случаям в большинстве европейских стран и США.

Италия предоставила данные о случаях Covid: https://data.humdata.org/dataset/covid-19-mobility-italy

Эта ссылка дает наборы данных для каждой страны: https://lionbridge.ai/datasets/coronavirus-datasets-from-every-country/

Использование науки о данных при разработке вакцин и лекарств от Covid

Существует несколько способов использования науки о данных в медицине для разработки лечения или вакцины от Covid.

Covid - это быстро мутирующий вирус, поэтому важно быстро идентифицировать мутации вируса. Используя машинное обучение (в основном деревья решений) для определения расстояния между последовательностями, европейские исследователи определили геномную подпись для ДНК Covid. Это их статья: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0232391

В другом документе описывается исследование, проведенное для классификации новых патогенов на основе сходства с последовательностью гена Covid: https://pubmed.ncbi.nlm.nih.gov/32330208/. Таким образом, можно быстро определить, является ли новый вирус вариантом Covid или просто еще один грипп.

Deepmind от Google использовал машинное обучение для предсказания структур белков в вирусе Covid 19 https://deepmind.com/research/open-source/computational-predictions-of-protein-structures-associated-with-COVID-19 . Эти знания будут необходимы при разработке лекарств и вакцин.

Аналогичным образом продолжаются исследования по выявлению антител в кровотоке пациентов и т. Д. Это также поможет в разработке вакцин против Covid.

EVQLV - американская биотехнологическая стартап-компания, которая использует методы машинного обучения для создания миллионов терапевтических антител для борьбы с Covid.

Исследование использования машинного обучения для распознавания паттернов гена Covid с целью разработки вакцин: https://www.brookings.edu/techstream/can-artificial-intelligence-help-us-design-vaccines/

Когда разрабатывается новая вакцина или лекарство, при тестировании на пациентах с использованием рандомизированных контрольных испытаний и их использовании для проверки эффективности лекарства также используются стандартные методы науки о данных.

Использование науки о данных в будущем для предотвращения эпидемий и пандемий

Анализ твитов по географическому признаку (с использованием кластеризации и других методов) и в режиме реального времени может помочь быстро предсказать возникшую эпидемию или другое стихийное бедствие. Использование НЛП (обработки естественного языка) и инструментов обработки речи в местных новостях можно аналогичным образом использовать для обозначения эпидемий в режиме реального времени до того, как они станут слишком большими. Социальные сети также можно использовать для прогнозирования распространения. Анализ математических моделей, таких как SEIR, как мы обсуждали выше, может моделировать рост эпидемий в целом.

Ограничения использования науки о данных для борьбы с Covid

Перечислив различные способы использования науки о данных, стоит помнить, что существуют некоторые ограничения, из-за которых чрезмерная зависимость от науки о данных бесполезна. Любая модель науки о данных хороша ровно настолько, насколько хороши данные для обучения. Таким образом, некоторые модели могут иногда не работать, если данные, на которых они основаны, неточны или неприменимы, или если в модели есть некоторые ошибки. Кроме того, есть и другие факторы, связанные с борьбой с Covid: модель машинного обучения может предсказать, что количество случаев вырастет до определенного числа в определенное время, но к тому времени правительство должно обеспечить достаточное количество больничных коек и аппаратов искусственной вентиляции легких. Модель может предсказывать, что этот район можно заблокировать, но правительство должно убедиться, что у людей достаточно еды и других продуктов в этом районе, и что блокировка выполняется должным образом. Приложение для отслеживания контактов может быть очень точным, но соблюдение надлежащих мер социального дистанцирования зависит от поведения людей. Таким образом, наука о данных сама по себе не может контролировать все или самостоятельно решать проблему Covid. Чтобы он работал, ему нужны помощь и сотрудничество со стороны правительства и общества в целом.