Модель прогнозирования, основанная на скрытой марковской модели машинного обучения.

Разработано Ишаном Гуалом, Гауравом Сетхи и Танмаем Джайном.

Наставник доктора Ашока Синха.

Вступление

Пандемия коронавируса 2019 года (COVID-19) в Ухане, Китай, имеет разрушительные последствия для глобальной окружающей среды и перегрузила передовые системы здравоохранения во всем мире. Всемирная организация здравоохранения (ВОЗ) объявила эпидемию коронавируса пандемией, хотя вирус продолжает распространяться. Пандемия все еще не находится под контролем, хотя случаи выздоровления подтверждены.

Мы предварительно обработали данные, а затем применили скрытые модели Маркова для прогнозирования распространения Covid 19 в разных странах и регионах. Среди изученных нами методов прогнозирования временных рядов были ARIMA, Facebook Prophet, метод линейного тренда Холта. В этой статье, основываясь на предыдущих моделях и ограничениях, мы применили скрытую марковскую модель для их преодоления и точного прогнозирования.

Используемый набор данных

Набор данных взят из репозитория данных для визуальной панели мониторинга нового коронавируса 2019 года, управляемой Центром системных наук и инженерии Университета Джона Хопкинса (JHU CSSE). Также при поддержке команды ESRI Living Atlas и Лаборатории прикладной физики Университета Джона Хопкинса (JHU APL).

Этот набор данных представляет собой набор данных временного ряда COVID-19, в котором данные представлены с даты с 22 января 2020 года по 16 июля 2020 года. В этом наборе данных мы выбрали данные для страны США, которые включают количество заражений и количество смертей в каждом городе США.

Оба файла имеют формат .csv. Наш набор данных состоит из следующих столбцов - UID, iso2, iso3, code3, FIPS, admin2, Province_State, Country_Region, Lat, Long_, Combined_Key и date (с 22 января по 16 июля). Характеристики нашего набора данных - это уровень инфицирования, смертность и количество времени.

Методология

Предварительная обработка данных

Сначала был очищен набор данных путем удаления ненужных столбцов - UID, iso2, iso3, code3, FIPS, Admin2, Lat, Long_. Поскольку нам нужны были только строки по стране, мы выбрали только столбец Combined_Key (город, штат, страна). Затем набор данных визуализируется в определенной строке, чтобы увидеть кривые ч / б дат и случаи COVID. Теперь рассчитывается первая производная, т. Е. Максимальная частота инфицирования и максимальная смертность. Поскольку теперь нам нужно соотношение между максимальной частотой инфицирования и максимальной смертностью, мы использовали здесь корреляцию. Поскольку корреляция - это мера того, насколько сильно одна переменная зависит от другой.

Скрытая марковская модель

Скрытая марковская модель (HMM) - это вероятностные модели, демонстрирующие их способность предсказывать и интерпретировать временные явления, и это делает их очень полезными при их прогнозировании. Они позволяют нам измерить совместную вероятность набора скрытых состояний для набора наблюдаемых состояний. Часто скрытые состояния называют скрытыми состояниями. Как только мы знаем совместные вероятности последовательности скрытых состояний, определяется лучшая последовательность, т.е. выбирается последовательность с наивысшими вероятностями и лучшая последовательность скрытых состояний. В дискретной форме скрытый марковский процесс может быть визуализирован как обобщение проблемы урны с заменой (где каждый элемент из урны возвращается в исходную урну перед следующим шагом).

Общая архитектура созданного экземпляра HMM:

Гауссовская скрытая марковская (гауссовская) модель HMM - это тип однородной HMM с конечным состоянием и нормальным распределением вероятности наблюдения. Поскольку гауссовский HMM является типом однородного HMM с конечным пространством состояний, три алгоритма прямого алгоритма, обратного алгоритма и алгоритма Витерби могут использоваться для решения шести общих проблем, таких как сглаживание, оценка, прогнозирование, фильтрация, обучение и проблемы с декодированием. Мы можем решать задачи оценки, фильтрации и прогнозирования с помощью прямого алгоритма; проблема сглаживания с использованием прямого алгоритма и обратного алгоритма; проблема декодирования с помощью алгоритма Витерби; и проблема обучения с использованием прямого алгоритма для определения вероятности, если она решена методом максимального правдоподобия или максимального апостериорного метода.

Реализация

В нашем случае было два состояния, а именно max_infection rate, max_death_rate, как рассчитано выше. Данные разделяются на обучающие и тестовые наборы с помощью библиотеки sklearn train_test_split. В соотношении 77% данных поездов и 33% данных испытаний. Затем эти столбцы объединяются в стек столбцов (массив) с помощью функции NumPy (numpy.column_stack ()), которая преобразует одномерный массив в двухмерный. Затем вычисляются и комбинируются предыдущие функции данных с помощью функции numpy.

После этого модель Гаусса Маркова помещается в массив данных поезда с различными параметрами, такими как разные типы ковариации и количество итераций. За алгоритм был взят алгоритм Витерби.

Затем оценка рассчитывается с помощью функции оценки для различных параметров на тестовых данных. Оценка рассчитывается на основе предыдущих характеристик данных, в нашей модели мы взяли 3 случая за первые 50 дней, за первые 100 дней, а затем за первые 500 дней.

Полученные результаты

Точность модели зависит от оценки. Оценка вычисляет логарифмическую вероятность модели. Оценка рассчитывается на основе характеристик предыдущего дня и типов ковариации «диагноза». Мы рассчитали результат для разных периодов времени: сначала 50 дней, затем 100 дней, а затем 200 дней.

Окончательное прогнозирование выполняется с помощью функции прогнозирования, которая прогнозирует наиболее вероятную последовательность состояний, соответствующую тестовым данным. Он возвращает последовательность state_sequence (метку для каждого образца из набора тестов). Функция pred_proba предсказывает апостериорную вероятность для каждого состояния в модели.

Как мы видим, первые 50 дней ставки были очень низкими, а затем начали расти.

Мы также вычислили корреляцию между max_infection_rate и max_death_rate перед предсказанием, чтобы проанализировать взаимосвязь между двумя параметрами.

Заключение

Мы пытались преодолеть прошлые неудачи и постарались повысить эффективность точного прогнозирования. На основе результатов, полученных после применения скрытой марковской модели, мы можем увидеть корреляцию между максимальным количеством смертей и максимальным уровнем инфицирования.

Как мы видели, в первые дни ставки были очень низкими, а затем начали быстро расти. Чтобы изучить взаимосвязь между обоими параметрами, мы также измерили взаимосвязь между максимальной частотой инфицирования и максимальной смертностью до предоставления.

С предстоящими оценками данных мы, вероятно, сможем помочь спрогнозировать потенциальное распространение COVID-19 и помочь в принятии решений в сфере здравоохранения, производства, экономики и даже в академических кругах.

использованная литература

1. Ван К., Хорби П.В., Хайден Ф.Г., Гао Г.Ф. Вспышка нового коронавируса, вызывающая озабоченность в области здравоохранения во всем мире. Ланцет. 2020; 395 (10223): 470–473. [Бесплатная статья PMC] [PubMed] [Google Scholar]

2. Coronavirus-worldometer, ссылка: https://www.worldometer.info/coronavirus/, [доступ в Интернете]

3. Дж. Ли, Э. Де Клерк, Варианты лечения нового коронавируса 2019 г. (2019-ncov), 2020. [PubMed]

4. Маллапати С. Что вспышки болезни на круизных лайнерах говорят о COVID-19. Природа. 2020; 580 (7801) [PubMed] [Google Scholar] 18–18

5. Лю К., Чен Ю., Линь Р., Хань К. Клинические особенности COVID-19 у пожилых пациентов: сравнение с пациентами молодого и среднего возраста. J. Infect. 2020 [Бесплатная статья PMC] [PubMed] [Google Scholar]

6. Прогнозирование и анализ коронавирусной болезни 2019 Линь Цзя1 Кевен Ли1,2 Ю Цзян1 Синь Го1 Тин чжао1.

7. Прогнозирование роста и тенденции пандемии COVID-19 с использованием машинного обучения и облачных вычислений ShreshthTuliaShikharTulibRakeshTulicSukhpal Singh Gilld

8. Прогнозирование нового коронавируса COVID-19 Фотиос Петропулос, Спирос Макридакис

9. Прогнозирование воздействия COVID-19 в Индии с использованием нелинейных моделей роста волн пандемии.

10. https://www.bloombergquint.com/gadfly/how-covid-models-work-to-predict-and-persuade

11. Б.Ф. Майер, Д. Брокманн, Эффективное сдерживание объясняет субэкспоненциальный рост подтвержденных случаев недавней вспышки COVID-19 в материковом Китае, препринт arXiv: 2002.07572 (2020).

12. Ли Ю., Лян М., Инь X., Лю X., Хао М., Ху З., Ван Ю., Цзинь Л. Эпидемия Covid-19 за пределами Китая: 34 основателя и экспоненциальный рост. medRxiv. 2020 [Google Scholar]

13. М. Райгоза, Covid-19, экспоненциальный рост и сила проявления социальной солидарности: математика, стоящая за вирусом (2020).

14. Бай Ю., Цзинь З. Прогнозирование эпидемии атипичной пневмонии с помощью нейронных сетей BP с помощью стратегии онлайн-прогнозирования. Солитон хаоса. Фрактал. 2005. 26 (2): 559–569. ["Google ученый"]

15. Се Й.-Х., Ли Дж.-Й., Чанг Х.-Л. Эпидемиологическое моделирование Sars. Возникающая инфекция. Дис. 2004; 10 (6): 1165. [Бесплатная статья PMC] [PubMed] [Google Scholar]

16. Смит Д., Мур Л. Модель SIR для распространения болезни: модель дифференциального уравнения. Loci. (Первоначально Конвергенция.) Https: // www. Маа. Org / Press / Periodicals / Loci / Joma / The-Sir-Model-for-Spread-of-Disease-the-Differential-Equation-Model. 2004 [Google Scholar]

Ссылки на проекты

Ссылка на видео Youtube - https://www.youtube.com/watch?v=tSu_Slk4r_w

Ссылка для совместной работы Google - https://colab.research.google.com/drive/1xHMgN39d3WS8UHYh_yUxHk4CLM1ca4Co?usp=sharing#scrollTo=4Dy7FJrJC1ai