Как и многие другие страны, Нигерия изо всех сил пытается справиться с пандемией Covid-19. В попытке ограничить распространение очень заразного вируса несколько штатов страны и, в конечном итоге, федеральное правительство ввели изоляцию; ограничение передвижения и приостановка предоставления всех второстепенных услуг.

После широких консультаций с экспертами и заинтересованными сторонами федеральное правительство в общенациональном эфире объявило об отмене блокировки; вступает в силу с 4 мая 2020 года. Как и ожидалось, это решение вызвало неоднозначную реакцию, и фундаментальным аргументом является то, что экспоненциальный рост числа случаев Covid-19 не поддерживает отмену блокировки.

Основываясь на этом аргументе, наша команда экспертов по данным решила создать гистограмму гонок; демонстрируя, как страна преуспела в борьбе с пандемией коронавируса в течение апреля 2020 года. Для нас оценка данных фазы изоляции Нигерии от COVID-19 дает интересные идеи, которые окажутся полезными по мере того, как страна выходит из режима блокировки.

Наша гистограмма гонок была анимирована символом R и показывает десять штатов Нигерии, ведущих ежедневно подтвержденные случаи заболевания Covid-19 за апрель. Вот разбивка всего, что мы сделали для его создания.

Сбор данных

Данные были собраны с сайта NCDC COVID-19. Поскольку процесс сбора данных начался с некоторым опозданием (28 апреля), возникла необходимость в обслуживании машины времени, чтобы помочь получить исторические данные.

Использовалась программа Way Back Machine, которая является самым популярным архивом веб-страниц в Интернете. Он имеет поле ввода, которое принимает URL-адрес веб-сайта, с которого должны быть получены исторические данные. После заполнения и отправки можно выбрать требуемую дату и вернуться на веб-сайт.

Веб-скрапинг

Для каждой заархивированной страницы есть URL-адрес, предоставленный Way Back Machine. Приведенный ниже фрагмент кода служит парсером для получения необходимых данных.

Параметр Проверить элемент, предоставляемый браузером, использовался для перехода к интересующей части. Элементы HTML имеют атрибуты, которые затем можно использовать для получения данных. R предоставляет простой синтаксис, чтобы помочь в этом; используя свой пакет rvest. Необходимая информация хранится в таблице на веб-странице. Приведенный выше парсер получает все элементы таблицы со страницы, а затем выбирает таблицу с идентификатором «custom3», которая является интересующей таблицей. Затем полученные данные были записаны в файл CSV, и процесс повторялся для каждого доступного дня в архиве с 1 по 31 апреля 2020 года.

В целом, для доступа к необходимой части страницы требуется некоторое знание HTML.

Преодоление данных

За период, когда проводился парсинг, на веб-сайт было внесено несколько изменений, некоторые из которых повлияли на интересующую таблицу. Это включало изменения в именах столбцов, количестве столбцов, типах данных и внешнем виде нулевых значений. Следовательно, это приводит к небольшим изменениям в сценариях, написанных для очистки данных. Ниже представлен один из используемых скриптов.

В приведенном выше блоке два необходимых столбца были выбраны из интересующей таблицы, и столбцы были переименованы в соответствии с предпочтениями. Для каждой даты был добавлен новый столбец День, так что окончательные данные представляют собой данные временного ряда в длинном формате. Затем очищенные данные записывались в предпочтительное место.

Процесс повторялся для каждого случая, затем все данные были агрегированы в один.

Исходя из вышесказанного, считываются чистые_данные, затем группируются по столбцу День и фильтруются по рангу; это правильно, поскольку тенденции нужно фиксировать ежедневно. Полученные данные затем группируются по столбцу состояния, фильтруются по рангу (первые 10) и сохраняются в переменной с именем covid_ranked.

Визуализация

Затем была создана анимированная гистограмма rank_data.

Метод ggplot принимает данные covid_ranked и создает гистограммы для каждого дня. Он использует свой аргумент aes и учитывает ранги, созданные для столбца подтвержденные случаи по отношению к дням и состояниям. столбцы. Метод geom_tile используется для стилизации полос графика. Метод geom_text используется для определения внешнего вида всего текстового содержимого, которое будет отображаться в визуализации. Затем метод animate используется для создания и сохранения анимации, созданной как изображение в формате gif.

Наша гистограмма гонок дает более четкую картину развития случаев заболевания Covid-19 в стране во время изоляции. Вы можете использовать пошаговое руководство, представленное в этом посте, чтобы создать гистограмму гонок для ваших данных.

Изучите навыки, необходимые для воссоздания этого и многого другого, в нашем классе по науке о данных, который поможет вам пройти путь от новичка до вашей первой работы в области науки о данных. Подпишитесь на нашу когорту по науке о данных на www.ydev.academy