Распространение болезней является очень важной проблемой, поскольку ставит под угрозу жизнь людей во всем мире. Недавняя пандемия COVID-19 принесла большинству из нас горький опыт и открыла нам глаза, которые проложили путь к более высокому уровню осведомленности о здоровье.

Лихорадка денге — переносимое комарами заболевание, которое встречается в тропических и субтропических частях мира. В легких случаях симптомы похожи на грипп: лихорадка, сыпь, боль в мышцах и суставах. В тяжелых случаях лихорадка денге может вызвать сильное кровотечение, низкое кровяное давление и даже смерть. Поскольку ее переносят комары, динамика передачи лихорадки денге связана с такими климатическими переменными, как температура и осадки. Хотя взаимосвязь с климатом сложна, все большее число ученых утверждают, что изменение климата, вероятно, вызовет сдвиги в распределении, которые будут иметь серьезные глобальные последствия. В последние годы распространяется лихорадка денге. Исторически заболевание было наиболее распространено в Юго-Восточной Азии и на островах Тихого океана.

DengAI — это онлайн-соревнование среднего уровня, организованное drivedata.org. Задача состоит в том, чтобы прогнозировать число случаев денге каждую неделю (в каждом месте) на основе переменных окружающей среды, описывающих изменения температуры, осадков, растительности и т. д. Метрика, которая используется для оценки модели в этом соревновании, основана на средней абсолютной ошибке. Понимание взаимосвязи между климатом и динамикой лихорадки денге может улучшить исследовательские инициативы и распределение ресурсов для борьбы с опасными для жизни пандемиями.

В рамках стажировки, проводимой LeadingIndia.ai, нашей команде из четырех человек был поручен проект DengAI. Мы опробовали различные модели временных рядов и модель машинного обучения Random Forest. Предоставленный набор данных состоял из 1456 записей обучающих данных и 416 записей тестовых данных для двух городов: Сан-Хуан и Икитос. Были рассмотрены переменные, влияющие на климат, такие как максимальная и минимальная температура, влажность, осадки и т. д.

Были использованы статистические модели временных рядов, такие как ARIMA, ARIMAX, SARIMA и SARIMAX. Аббревиатура ARIMA расшифровывается как Auto-Regressive Integrated Moving Average. Лаги стационарного ряда в уравнении прогнозирования называются «авторегрессионными» членами, лаги ошибок прогноза называются членами «скользящего среднего», а временной ряд, который необходимо дифференцировать, чтобы сделать его стационарным, называется «интегрированным». вариант стационарного ряда. Несезонная модель ARIMA классифицируется как модель «ARIMA(p,d,q)», где:

  • p - количество авторегрессионных терминов
  • d - количество несезонных разностей, необходимых для стационарности.
  • q - количество запаздывающих ошибок прогноза в уравнении прогноза.

Модель ARIMAX очень похожа на модель ARIMA, за исключением того, что она также включает соответствующие независимые переменные. Хотя включение экзогенных переменных усложняет процесс построения модели, модель может учитывать влияние внешних факторов.

В модели SARIMA (сезонный ARIMA) сезонность относится к периодическим колебаниям. Сезонная часть модели ARIMA имеет ту же структуру, что и несезонная часть: она может иметь фактор AR, фактор MA и/или порядок разности. В сезонной части модели все эти факторы действуют через кратные лаги (количество периодов в сезоне). Сезонная модель ARIMA классифицируется как модель ARIMA(p,d,q)x(P,D,Q), где P=количество членов сезонной авторегрессии (SAR), D=количество сезонных различий, Q=количество сезонных условия скользящей средней (SMA). SARIMAX снова включает экзогенные переменные, которые учитывают влияние внешних факторов.

Алгоритм машинного обучения, который мы использовали, представляет собой случайный лес. Это ансамблевый подход, который означает, что выходные данные других алгоритмов или слабых учеников объединяются во взвешенную сумму, которая представляет окончательный результат усиленного алгоритма. В случае случайного леса строки набора данных делятся на выборки, а признаки делятся на наборы признаков. Случайные комбинации этих выборок и наборов признаков задаются множеству деревьев решений, каждое из которых дает некоторый результат. Поскольку наша постановка задачи связана с регрессией, используется регрессор случайного леса, который принимает среднее значение выходов всех деревьев решений в качестве конечного результата. Рассматриваемый гиперпараметр равен no. оценщиков, который является нет. используемых деревьев решений.

Мы получили довольно хорошие результаты с низкими значениями средней абсолютной ошибки для наших моделей. Оценки, которые мы получили, приведены ниже, для которых мы получили наивысший рейтинг 813 на drivedata.org:

Такие модели, как ARIMA и SARIMAX, работали довольно хорошо, но случайный лес превзошел все остальные модели. Ограничения проекта заключаются в том, что набор данных был небольшим (1872 строки), а данные относились к конкретному региону и, следовательно, не могли быть применены к другим географическим местоположениям. В будущем можно будет опробовать алгоритмы глубокого обучения, такие как LSTM. Проект может быть распространен на другие регионы и другие заболевания.

Использованная литература: