Введение
Я Гауранш Сони, второкурсник ИИТ Дели, члены моей группы - Арьян Чоудхари, Аиша Рафи, Наванит КП. Наша команда работает над проектом Распространение вакцины против Covid с использованием модели эпидемии SIRD под руководством проф. Джей Дхаривал (отдел дизайна, ИИТ Дели).
Описание
Модель Sвосприимчивых зараженныхRвыявленных Dсмертей — это модель эпидемии, которая часто используется для прогнозирования эпидемий. В этой модели общая популяция делится на 4 части: Восприимчивые, Зараженные, Выздоровевшие, Мертвые. Эта модель предполагает, что во время пандемической ситуации все население должно переболеть заболеванием один раз и один человек может заразиться только один раз. Таким образом, исходя из предположений, что один человек может быть инфицирован только один раз, и без концепции коллективного иммунитета, мы продолжаем использовать эту модель. Первоначально эта модель использовалась для прогнозирования отсутствия случаев заболевания и определения пика пандемии, но мы нашли способ распространить ее использование на распространение вакцины в Индии.
Описание проблемы
Модель уже существует, и в ней нет ничего инновационного, но мы выяснили, что в стране с таким огромным населением разные штаты имеют разную географию, демографию и число репродукции(R). В таком случае возникает вопрос, как решить, какой штат получит больше вакцин?
Учитывая модель прогнозирования эпидемии, как вы определите наилучшие возможные объемы поставок в разные штаты?
Этапы
- Проектное предложение
- Набор данных
- Предварительная обработка и визуализация данных
- Статистическое моделирование данных
- Применение алгоритма обучения
- Результаты
Проектное предложение
Набор данных
Найти набор данных для COVID-19 не так уж сложно, но преодолеть аномалии в данных — проблема. Иногда случаи намеренно занижаются. Есть некоторая проблема с вводом данных на уровне земли.
В случае с Индией используемый набор данных принадлежит организации covid19India.org. Для мировых данных мы использовали CSSE-Git Repository Университета Джона Хопкинса.
Данные извлекаются с помощью API, доступны различные формы, мы находим CSV простыми в использовании и интерпретации.
Как видите, существуют разные столбцы для состояний, закодированных двумя буквами.
Каждая дата имеет 3 строки для подтвержденных, выздоровевших и умерших случаев.
Данные о населении также принимаются во внимание. Графический отчет для различных штатов еще не подготовлен.
Предварительная обработка и визуализация данных
Данные должны быть обработаны перед вводом в фактический алгоритм.
Предварительная обработка
- Заполнение пропущенных значений
- Поиск ошибочных значений
- Удаление дубликатов
- Выбор функции
Визуализация
Временные ряды активных, выздоровевших и смертей в Индии
Поскольку данные о ежедневных умерших довольно шумные, чтобы сгладить кривую, я взял скользящее среднее данных. Происходит небольшое смещение пика.
Ссылка на гугл-таблицу здесь.
Подробный отчет о визуализации будет доступен в ближайшее время.
Видео проекта
МОДЕЛЬ SIRD
Модель SIRD можно описать с помощью ряда дифференциальных уравнений.
Где γ — скорость выздоровления (обратная величина продолжительности болезни), β — скорость передачи, μ — уровень смертности, а N — общая численность населения. Первое уравнение определяет скорость изменения для восприимчивой группы, которая уменьшается со скоростью, пропорциональной β, по мере того, как люди переходят от восприимчивых к инфицированным. Люди в инфицированной группе перемещаются со скоростью, пропорциональной μ и γ, либо в группу выздоровевших, либо в группу умерших. Отношение β/γ является оценкой R0, которая представляет собой число размножения или вероятность того, что особь в популяции заразит кого-то другого.
В своей базовой форме эти модели не учитывают географический, демографический или политический контекст. Тем не менее, географические особенности, такие как схема движения пригородных поездов и плотность застройки, являются важными факторами для понимания того, как COVID-19 распространяется в сообществах. Здесь мы модифицируем базовую модель SIRD, чтобы отразить различия в географии: мы добавляем термин, чтобы отразить местную приверженность социальному дистанцированию, и мы корректируем количество восприимчивых людей с учетом уязвимых групп населения по всей стране. Уравнения корректируются следующим образом: