Как Всемирная организация здравоохранения и база данных 2019-nCoV (Coronavirus) от Kaggle рассказывают одну и ту же историю с разными показателями воздействия ..

Я искренне молюсь за благополучие каждого в Китае. Дай Бог достаточно сил жертвам коронавируса и их семьям, чтобы пережить это тяжелое время. Следуйте советам, изложенным на «веб-сайте ВОЗ, чтобы оставаться в безопасности и защищаться »

Что беспокоит Всемирную организацию здравоохранения? (Фон проблемы)

Коронавирусы (CoV) - это большое семейство вирусов, вызывающих заболевания от простуды до более тяжелых заболеваний, таких как« ближневосточный респираторный синдром (MERS-CoV) и тяжелый острый респираторный синдром (SARS-CoV). . Новый коронавирус (nCoV) - это новый штамм, который ранее не обнаруживался у человека. Новости о вспышке коронавируса, начавшейся в китайском Ухане, быстро меняются. Респираторная инфекция, которая тесно связана с SARS и MERS, распространяется по Китаю, и случаи заболевания были диагностированы в нескольких других странах, включая США, Австралию, Японию и т. Д. »



Где я могу найти реальную информацию? (Источники данных)

Университет Джона Хопкинса создал онлайн-панель для мониторинга текущего сценария коронавируса, и данные извлекаются по той же ссылке и становятся доступными в формате csv. Большая часть данных собирается из различных источников, в том числе ВОЗ, США CDC, ECDC Китайского CDC (CCDC ), NHC и DXY . DXY - это китайский веб-сайт, который объединяет отчеты NHC и местных CCDC о ситуации в режиме, близком к реальному времени, предоставляя более актуальные региональные оценки случаев, чем могут предоставить национальные организации, сообщающие информацию, и, таким образом, используется для всех зарегистрированных случаев (подтвержденных, подозреваемых) в материковом Китае. , выздоровел, смертей). Случаи заболевания в США (подтвержденные, предполагаемые, выздоровевшие, со смертельным исходом) взяты из Центра контроля заболеваний США, а данные о случаях заболевания в других странах (подозреваемые и подтвержденные) взяты из соответствующих региональных департаментов здравоохранения. Данные представлены на уровне страны, провинции и даты и содержат ~ 368 записей.

Насколько надежен мой источник данных? (Исследовательский анализ данных)

Очень знакомая терминология в области аналитики, которая включает построение сводок, проверку дублирования данных, пропущенных значений, распределение ключевых показателей эффективности. Поскольку у нас ~ 368 записей, я проверил все данные в самом Excel. Вот что я нашел:

  • ~ 66 записей из 368 не содержат информации о штате / провинции
  • 19 записей, захваченных в таких странах, как Китай, материковый Китай, Малайзия, Бразилия, не содержат информации о подтвержденных, смертельных или вылеченных случаях.
  • Фид времени «Последнее обновление» не соответствует согласованности типов данных и требует очистки, особенно фид 23 января 2020 г.
  • Описательная статистика - Наблюдается более высокое стандартное отклонение или дисперсия, поскольку случаи в основном ограничиваются Китаем. В остальном мире очень мало событий

Находимся ли мы в опасности заражения коронавирусом? (Выводы)

На сегодняшний день риск остается ограниченным в основном в Китае, однако несколько случаев передачи вируса от человека к человеку зарегистрировано в США и других странах.

Тайланд, Гонконг, Япония, Сингапур находятся в верхней части списка, но составляют лишь 1% случаев. Общее количество подтвержденных случаев продолжает расти, но% увеличения подтвержденных случаев с течением времени не показывает линейной тенденции на сегодняшний день, тогда как соотношение смертей к подтвержденным случаям осталось неизменным.

Z-тест на разницу средних значений в подтвержденных случаях для Китая и остального мира дает p-значение 0,0001, доказывая, что наша нулевая гипотеза верна, т. е. наблюдается значительная разница между подтвержденными случаями в Китае и . Остальной мир.

Чтобы отслеживать обновления в реальном времени, я создал панель мониторинга на основе QlikSense с коннектором ежедневных обновлений, анализируя данные в различных сценариях.

Данные никогда не лгут! Но как мне подтвердить Истину? (Проверка качества и смысла)

Самая большая проблема любого анализа - подтвердить цифры, которые мы сообщаем. Часто процесс сопоставления данных утомителен и требует большой очистки, прежде чем данные можно будет использовать. Очистка включает приближения и предположения, которые могут повлиять на наши результаты. Ошибки кода, неверная информация в корневом каталоге сбора данных, системные или внутренние проблемы на панели управления часто могут представлять собой неверные цифры. Следовательно, просмотр подлинных источников, 10K отчетов и небольшой поиск в Google могут гарантировать правильный вывод. Чтобы проверить цифры с моей панели инструментов, я сослался на Отчет о ситуации - 9 с веб-сайта ВОЗ. Вот что я нашел:

  1. На моей панели управления зарегистрировано ~ 25 тыс. Подтвержденных случаев, что намного выше, чем сообщается ВОЗ, ~ 17 тыс. (Подтвержденные + подозреваемые + тяжелые + смерть)
  2. ~ 20 стран и 45 провинций имеют по крайней мере один подтвержденный случай, в соответствии с данными ВОЗ, 16 стран
  3. На сегодняшний день во всем мире зарегистрировано ~ 2,3% смертей и ~ 1,9% выздоровевших случаев.
  4. % Увеличения подтвержденных случаев не показывает какой-либо линейной / нелинейной тенденции и оставался неизменным с течением времени с внезапными всплесками

Об авторе: специалист в области продвинутой аналитики и консультант по вопросам управления, помогающий компаниям находить решения для различных проблем с помощью сочетания бизнеса, технологий и математики на основе данных организации. Энтузиаст науки о данных, здесь, чтобы делиться, учиться и вносить свой вклад; Вы можете связаться со мной в Связанном;