Денге остается кризисом общественного здравоохранения в Сингапуре. Этот проект предназначен для прогнозирования числа случаев денге в ближайшие восемь недель, чтобы помочь в усилиях по профилактике денге. Мы создаем модели на основе температуры, влажности, случаев денге и данных о населении, используя сеть персептрона, преобразование Фурье, XGBoost и RNN с LSTM. В этой статье мы описываем соответствующие базовые знания, предположения, пошаговое создание модели и возможные реализации. Наш веб-инструмент доступен по адресу https://dengue-prediction.herokuapp.com/, который проведет вас через этот документ. При использовании онлайн-инструмента дождитесь появления символа запуска в правом верхнем углу, чтобы увидеть, полностью ли загружена страница.

Задний план

Денге, тропическое и субтропическое эндемическое заболевание, передающееся городским комаром Aedes aegypti, представляет собой серьезную угрозу для общественного здравоохранения, затрагивающую более ста стран мира (Guzman, 2016; ВОЗ, 2019). В Сингапуре от десяти до двадцати тысяч человек ежегодно заболевают лихорадкой денге, и ежегодно на компенсацию последствий, связанных с болезнью денге, тратится более 1 миллиарда долларов США (Carassco, 2011; Ler, 2011; Ng, 2015;). Только в 2019 г. (по состоянию на сентябрь) на местном уровне было зарегистрировано 15 999 случаев лихорадки денге, в том числе 65 случаев геморрагической лихорадки денге и 17 случаев смерти от инфекций (NEA, 2019). С ростом степени урбанизации и параллельным географическим распространением переносчиков риск и число случаев лихорадки денге, вероятно, вскоре возрастут (Hapuarachchi, 2016). В условиях отсутствия эффективных лекарств и вакцин (Campos, 2018; Silveira, 2019) профилактика и эпиднадзор становятся ключевыми факторами в управлении рисками для здоровья населения и минимизации смертности от инфекций. Здесь мы рассмотрели использование Python и Smojo для создания моделей на основе данных для прогнозирования случаев передачи лихорадки денге за 8–16 недель, чтобы помочь отдельным лицам и учреждениям подготовиться к национальному надзору Сингапура за случаями заражения лихорадкой денге и борьбе с эпидемией.

технический фон для моделей и методов (регрессия DNN

RNN с LSTM

ГАН

Трансформеры, XGBoost)

Регрессия DNN

Нейронные сети можно свести к регрессионным моделям — нейронная сеть может «притворяться» любым типом регрессионной модели. Например, эта очень простая нейронная сеть только с одним входным нейроном, одним скрытым нейроном и одним выходным нейроном эквивалентна логистической регрессии. Он принимает несколько зависимых переменных = входных параметров, умножает их на их коэффициенты = веса и пропускает их через сигмовидную функцию активации и функцию единичного шага, которая очень похожа на функцию логистической регрессии с ее ошибкой.

https://missinglink.ai/guides/neural-network-concepts/neural-networks-regression-part-1-overkill-opportunity/

RNN с LSTM

Обычный блок LSTM состоит из ячейки, входного затвора, выходного затвора и затвора забывания. Ячейка запоминает значения через произвольные промежутки времени, а три ворота регулируют поток информации в ячейку и из нее.

Трансформеры ГАН

Предположения

Скорость передачи лихорадки денге по-разному коррелирует с метеорологическими переменными по нескольким причинам, касающимся динамики и биологии популяций переносчиков (Aedes aegypti и Aedes albopictus). Повышение температуры, например, позволяет взрослым комарам приобрести компетентность и сократить внешнее время инкубации вируса денге (время между тем, как комары приобретают вирус и в конечном итоге могут передать его людям через хоботок). Однако высокая температура также снижает репликацию вируса денге и продолжительность жизни комаров. Осадки коррелируют с ростом заболеваемости лихорадкой денге, создавая застойные водоемы для размножения переносчиков. Однако чрезмерное количество осадков приводит к гибели личинок комаров и снижает риск передачи вируса. Популяция является еще одним определяющим фактором уровня заражения лихорадкой денге, поскольку степень скученности и объем постоянного потока людей являются одними из основных факторов, способствующих размножению переносчиков и передаче от хозяина к хозяину.

Для наших моделей прогноза мы предполагаем, что возникновение лихорадки денге в Сингапуре в значительной степени зависит от изменений и колебаний температуры, количества осадков, тенденций распространения вируса денге и населения страны. Мы также предполагаем, что данные об этих параметрах и заболеваемости лихорадкой денге собираются точно и отражают истинные условия для рассматриваемых периодов.

Исследование данных

В наших моделях мы использовали четыре основных набора данных: число случаев денге, влажность, температура и численность населения. Для набора данных Денге имеется в общей сложности 1038 пригодных для использования точек данных. Вот как это выглядит:

Известно, что случаи заболевания лихорадкой денге увеличиваются в сезон дождей. Мы сравнили ежегодные подсчеты лихорадки денге, чтобы увидеть, какие закономерности следуют данным.

Недели 20–30 и 50–3 (следующего года) обычно показывают всплеск случаев денге. Кроме того, всплески заболеваемости лихорадкой денге в 2013, 2014 и 2019 годах показывают, что существует еще один фактор — игра. В Денге в Сингапуре с 2004 по 2016 год: циклические эпидемические модели с преобладанием серотипов 1 и 2 (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6085773/) представляется, что преобладающее серотип для случаев денге меняется каждые два года. Когда серотипы различаются, появляются всплески. Мы надеемся, что наша модель будет фиксировать это поведение, а не добавлять это правило явно.

Данные о населении довольно просты. Имеются данные за 60 лет, при этом население неуклонно растет с каждым годом. Было бы разумно нормализовать наши данные о денге по размеру популяции, потому что по мере роста популяции, вероятно, будет больше случаев денге. Однако, поскольку мы прогнозируем только восемь недель в будущем, мы можем использовать только население 2019 года. Мы принимаем это дизайнерское решение в некоторых наших моделях.

Влажность и температура были зарегистрированы для регионов и субрегионов Сингапура. Было 218 585 отсутствующих точек данных, осталось 28 547 пригодных для использования точек. Учитывая это, мы взяли среднее значение всех районов, чтобы получить средний признак. См. ниже среднюю тенденцию, а затем среднюю тенденцию по сравнению с остальной частью осадков в Сингапуре (выделено красным).

Есть регионы, где количество осадков намного выше (или меньше), чем в среднем (выделено красным). Будущим направлением будет создание промежуточного объекта, объединяющего регионы по географическому признаку (например, север) или исследующего распространенность лихорадки денге в каждом регионе. Аналогичная тенденция наблюдается и с температурными данными:

См. средние значения в красном цвете. В среднем температура составляет +- 2 градуса по Цельсию от средней.

Мы также самостоятельно запросили данные о температуре и влажности с метеостанций и сгруппировали по регионам «Плотность застройки», «Землепользование» и «Плотность населения», хотя эти функции не были в конечном итоге полезными.

Наконец, мы определили преобладающие серотипы из исследовательских работ и добавили их в качестве признака. Число «0» относится к неизвестному преобладающему серотипу. Цифры «1» и «2» соответствуют серотипам 1 и 2. Серотипы здесь являются неточными признаками, поскольку в литературе основное внимание уделяется преобладающему серотипу в обращении в каждый период времени, случаи других серотипов не обсуждаются, и, следовательно, данные недоступны для нашего представительства. Кроме того, данные о серотипах не включают все случаи лихорадки денге в Сингапуре, а представляют только те, которые были собраны и отправлены на анализ в больницы.

Мы представляем наш набор данных визуально с помощью этого изображения:

Описание моделей

Мы начали моделирование с просмотра значений автокорреляции, чтобы получить этот график:

Мы видим контур ожидаемой нами овальной формы. Корреляция между предыдущим и следующим временным шагом составляет 0,96. Тогда имеет смысл, что RMSE из модели постоянства низкий: 51,316. RMSE для этих статистических моделей был рассчитан путем хранения данных о денге за последние 8 недель, прогнозирования (t+8) с использованием модели, а затем сравнения с истинными показателями денге за эти 8 недель. Из модели постоянства мы видим, что предыдущий временной шаг, вероятно, предсказывает следующий. Затем мы попробовали варианты дополненной реальности, чувствительные к временам года и скользящему среднему значению. Это связано с тем, что с ростом населения увеличивается и заболеваемость лихорадкой денге. Скользящее среднее может отразить это поведение.

Эти модели работали не так хорошо, как в режиме AR, но были разумными.

Затем мы попытались аппроксимировать частоты подсчетов лихорадки денге с помощью преобразований Фурье. С этого момента мы разделим наш набор данных на три категории: обучение, тестирование и финальное тестирование. Обучение — это 80% набора данных, тест — 20%, а финальный тест — последние 8 недель для прогнозирования. Здесь прогноз, выделенный синим цветом, — это прогноз с использованием 100 гармоник. По оси абсцисс отложены случаи денге, а по оси ординат — недели. Для тестового набора среднеквадратичное отклонение составило 25, а для финального теста — 165. Преобразование Фурье не чувствительно к самым последним данным, но может быть полезным для долгосрочного прогнозирования.

Мы устанавливаем прогноз Фурье в качестве нашего базового уровня.

Этот базовый уровень можно улучшить.

Еще одним предварительным исследованием моделирования является использование нейронной сети персептронного типа, представленной в мастерской. Для предварительной обработки данных мы использовали средненедельные значения метеорологических переменных и, в частности, сводную и усредненную температуру острова в соответствии с установленными в настоящее время факторами риска лихорадки денге, а также количество осадков в соответствии с географической близостью метеостанций, чтобы сделать доступными данные с 2000 по 2019 год и устранить недостающие данные. значения в наборе данных. Это сделано для того, чтобы у нас были соответствующие недельные средние данные по эпидемиологии лихорадки денге, начиная с 8 января 2000 года.

Ниже вы можете увидеть характер распределения метеостанций по Сингапуру, доступность данных для каждой станции, а также наши пространственные агрегаты и факторы, лежащие в основе этого:

(Нанесите на карту станции с данными о температуре. Красные булавки обозначают станции, которые предоставили данные за 2000 г., а желтые булавки — те, где их нет.)

Из-за небольшого количества станций, на которых имеются данные о температуре с 2000 г., мы оценили факторы риска лихорадки денге, влияющие на распределение температуры, локальную изменчивость температуры и вероятность, временной характер и скорость передачи лихорадки денге, а также агрегированные данные о температуре на четырех станциях (Tengah , Changi, Seletar и Sembawang) с данными, доступными с 2000 года.

Оценка основана на нескольких ключевых моментах, упомянутых в литературе, таких как время хобота комаров Aedes aegypti , движение людей и использование городских земель по сравнению с водоемами, которые влияют на динамику местной температуры. Ниже показан раздел наших параметров оценки.

Что касается осадков, мы собрали и усреднили данные на основе географической близости, поскольку это единственный наиболее важный фактор, определяющий фактическое количество осадков на каждой метеостанции.

(Агрегированные данные об осадках на основе пространственной близости. Фиолетовые булавки представляют станции с данными за 2000 г., а синие — станции без них.)

Для моделирования мы настроили варианты однослойных, двухслойных, четырехслойных персептронных сетей с уменьшением числа нейронов на 1/3 для каждого последующего слоя. Основываясь на показанных результатах, мы пришли к выводу, что модель, вероятно, не может обобщать и, возможно, перетренирована.

Затем мы попробовали алгоритм XGBoost. Для параметров мы использовали настройку гиперпараметров. Основываясь на литературе, мы попробовали разные параметры для алгоритма повышения, значения гаммы и скорости обучения. После проб и ошибок мы увидели, что модель переоснащается с более чем 50 шагами, поэтому позже мы включили раннюю остановку, чтобы остановить переоснащение.

XGBoost также помогает определить, какие параметры модели являются наиболее важными. В данном случае это был параметр даты. Имеет смысл, что даты являются наиболее важными предикторами моделей денге. Значения температуры и влажности также зависят от времени. Поскольку мы не знаем их заранее, мы прогнозируем с помощью моделей только на основе данных о населении и датах. Разница в прогнозах незначительна. Мы добавляем новые функции, такие как месяц, день года и предыдущие подсчеты лихорадки денге.

RMSE для тестового набора составил 126 и 91,5 для окончательного тестового набора.

Учитывая важность самых последних точек данных, RNN с LSTM может быть полезным предиктором.

Это будет наша третья и последняя модель. Мы используем аналогичную процедуру настройки гиперпараметров, описанную выше. В нашей лучшей модели у нас было следующее:

RNN с оптимизатором Adam для среднеквадратичной ошибки, нормализация, без регуляризации, 100 эпох с размером пакета 32, 3-слойный LSTM, с отсевом 0,2.

RMSE в тестовом случае был 151 и 288 для окончательного набора тестов. Это можно улучшить, учитывая больше времени и вычислительной мощности. Будущая работа будет направлена ​​​​на двунаправленные LSTM и преобразователи для прогнозирования лихорадки денге, подобные тем, которые используются в прогнозировании запасов.

Сводные результаты

Модель

СКО тестового набора

Окончательная среднеквадратическая ошибка настройки

Упорство

-

51.36

САРИМАКС

-

213.5

СЭС

-

56.8341

ES

-

56.8341

Фурье

25

165

XGBoost

126.1

91.5

РНН

150.7

288.6

Выполнение

Наши модели могут помочь NEA более эффективно бороться с лихорадкой денге.

Мы создали веб-приложение для демонстрации наших моделей. Вы можете выбрать модель и количество недель для прогнозирования вперед, а также просмотреть планки погрешностей.

Прогнозирование лихорадки денге является важным шагом на пути к предотвращению лихорадки денге. Чтобы определить наилучшие стратегии предотвращения, NEA выигрывает, зная, как быстро и в каком масштабе действовать. Один из вариантов использования следующий:

  1. NEA использует веб-инструмент для прогнозирования случаев денге на 8 недель вперед
  2. NEA понимает прогнозируемые закономерности, чтобы увидеть резкое увеличение прогнозируемых случаев денге.
  3. NEA внедряет агрессивную борьбу с комарами
  4. NEA возвращает свои вмешательства обратно в модель вместе с новыми подсчетами лихорадки денге.
  5. NEA считает, что в ближайшие 8 недель будет мало случаев денге, и может протестировать новые меры, которые помогут в будущем.

Ключом к устойчивой эффективности является то, что NEA документирует свои действия и позволяет обновлять модель по мере изменения допущений, описанных выше. Это самый большой технический риск.

Технические риски

Наша модель абстрагирует несколько явлений окружающей среды, которые, как известно, влияют на распространение денге, таких как ветер, наличие детрита и наличие мест размножения. Эти предположения могут быть неприемлемыми, поскольку число случаев лихорадки денге невелико по сравнению с потенциальной ошибкой, вызванной изменениями этих условий окружающей среды.

Кроме того, модель не включает различные сильные интервенции со стороны NEA. Поскольку у нас нет предварительных данных о том, когда и где АЯЭ приложило свои усилия, мы не учитываем значительный фактор в прогнозировании лихорадки денге. Воздействие вмешательств NEA можно увидеть в успехе программы Wolbachia в Ишуне и Тампине с уровнем подавления популяций комаров на 90%. С меньшим количеством комаров-переносчиков болезни вполне вероятно, что заболеваемость лихорадкой денге в этих районах также снизится. В настоящее время модель не учитывает эти вмешательства.

В совокупности соображения окружающей среды и вмешательства не позволяют инструменту быть чувствительным к ключевым факторам, влияющим на уровень заболеваемости лихорадкой денге. Чтобы создать модели, более чувствительные к этим факторам, нам необходимо увеличить наборы данных, как описано выше. Учитывая эти факторы, мы консервативно оцениваем погрешность не менее 20%. Это рассчитывается на основе частоты ошибок нашего лучшего предиктора и путем наблюдения за ежегодными тенденциями на веб-сайте мониторинга вспышек денге (https://outbreak.sgcharts.com/). При наличии дополнительных данных с более высокой степенью детализации возможны более точные прогнозы.

Размышления

Создание моделей экологического прогнозирования является сложной задачей. Одной из наших основных задач было определение функций, которые были актуальны и хорошо задокументированы. Мы были обескуражены, когда увидели большое среднеквадратичное отклонение для наших прогнозов, но было важно понять, что эти модели могут быть полезны без предсказания точного количества случаев.

Мы также осознавали важность организации и анализа каждой модели, которую мы создавали, по мере их создания. Довольно много раз мы шли по ложному пути, не понимая, почему наши потери были такими низкими (или высокими). Мы надеемся, что другие смогут использовать наши эксперименты, чтобы вскоре появился мощный предсказатель лихорадки денге.

Выводы

Прогнозирование лихорадки денге — сложная задача, учитывающая несколько факторов. Основываясь на данных, которые мы использовали, мы смогли построить модель, которая прогнозирует лихорадку денге на 8 недель вперед со среднеквадратичной ошибкой 91,5 (XGB). Текущая модель может информировать NEA о решениях по планированию, которые лучше всего подходят для Сингапура, например, когда следует применять агрессивные или инновационные подходы к борьбе с комарами. Как указано в рисках, с дополнительной детализацией факторов окружающей среды и вмешательств эта модель может быть потенциально более действенной.

Ресурсы

1. Кортес Да Силвейра, Л. Т., Тура, Б. и Сантос, М. Систематический обзор эффективности вакцины против лихорадки денге. дои: 10.1186 / с 12879–019–4369–5

2. Карраско Л. Р. et al. Экономические последствия болезни Денге и экономическая эффективность будущих программ вакцинации в Сингапуре. PLoS Негл. Троп. Dis. 5, e1426 (2011).

3. НЭА. НЕА | Ежеквартальные данные эпиднадзора за лихорадкой денге. Ежеквартальные данные эпиднадзора за денге NEA (2019 г.). Доступно по адресу: https://www.nea.gov.sg/dengue-zika/dengue/quarterly-dengue-surveillance-data. (По состоянию на 4 января 2020 г.)

4. НЭА. НЕА | Случаи денге. Случаи лихорадки денге в Северо-Восточной Азии (2019 г.). Доступно по адресу: https://www.nea.gov.sg/dengue-zika/dengue/dengue-cases. (По состоянию на 4 января 2020 г.)

5. Онг, Дж. et al. Картирование риска лихорадки денге в Сингапуре с использованием Random Forest. PLoS Негл. Троп. Dis. 12, e0006587 (2018).

6. Гусман, М. Г., Гублер, Д. Дж., Искьердо, А., Мартинес, Э. и Холстед, С. Б. Инфекция денге. Нац. Преподобный Дис. Прим. 2, (2016).

7. Пенья-Гарсия, В. Х., Триана-Чавес, О. и Арболеда-Санчес, С. Оценка влияния температуры на передачу денге в колумбийских городах. Энн. Глоб. Heal. 83, 509 (2017).

8. Бенедум, К.М., Сейдахмед, О.М.Э., Эльтахир, Э.А.Б. и Маркузон, Н. Статистическое моделирование влияния ливневых дождей на передачу лихорадки денге в Сингапуре. PLoS Негл. Троп. Dis. 12, e0006935 (2018).

9. Уоттс, Д.М., Берк, Д.С., Харрисон, Б.А., Уитмайр, Р.Е. и Нисалак, А. Влияние температуры на эффективность переносчика Aedes aegypti для вируса денге 2. Я. Дж. Троп. Мед. Hyg. 36, 143–152 (1987).

10. Ли, К.Ф., Лим, Т.В., Хан, Л.Л. и Фанг, Р. Количество осадков, обилие Aedes aegypti и лихорадка денге в Селангоре, Малайзия. Юго-Восточная Азия J. Trop. Мед. Общественное здравоохранение 16, 560–568 (1985).

11. Альто, Б.В. и Беттинарди, Д. Температура и вирусная инфекция денге у комаров: независимое воздействие на незрелую и взрослую стадии. Я. Дж. Троп. Мед. Hyg. 88, 497–505 (2013).

12. ВОЗ. Денге и тяжелая форма денге. (2019). Доступно по адресу: https://www.who.int/news-room/fact-sheets/detail/dengue-and-severe-dengue. (По состоянию на 4 января 2020 г.)

13. Лер Т. С. et al. Эпидемиологические характеристики эпидемий денге 2005 и 2007 гг. в Сингапуре — сходства и различия. Запад. Тихоокеанское наблюдение. Ответ 2, e1–e1 (2011 г.).