Открытия от специалиста по данным

Вирус Covid-19 был впервые обнаружен 31 декабря 2019 года в Ухане, Китай. 7 января 2020 года вирус был временно назван «2019-nCoV». Коронавирусы (CoV) представляют собой большое семейство других вирусов, вызывающих заболевания и дискомфорт, начиная от обычной простуды и заканчивая более тяжелыми заболеваниями.

Воздействие этого вируса оставило на нас след, который еще очень долго не забудется в истории.

Введение

Я решил изучить данные о covid 19 и раскрыть некоторые идеи о вирусе covid 19, о котором люди могут не знать. Я использовал язык программирования python для анализа данных и использовал надежные инструменты визуализации в Python, такие как библиотеки визуализации Matplotlib и Seaborn, чтобы отображать результаты моих выводов, чтобы каждый мог их легко понять.

Источник данных

Данные, используемые для этого анализа, были получены из репозитория данных Kaggle, который содержит множество различных наборов данных. Этот набор данных представляет собой набор данных о covid-19, собранный из разных стран, затронутых вирусом. Данные показывают различные функции данных, такие как страны, регионы ВОЗ, население и многие другие полезные функции для анализа данных.

Без лишних слов, давайте приступим к делу дня, хорошо?

Очистка данных

Я провел этот анализ с помощью лаборатории Jupyter. Jupyter lab — это интегрированная среда разработки (IDE) для анализа данных.

Первое, что я сделал, это импортировал свои данные с помощью библиотеки Pandas. Pandas — одна из надежных библиотек Python для обработки и анализа данных.

Затем я проверил статистическое распределение своих данных с помощью функции pandas.describe().

И это дало мне этот вывод:

Примечание. Не все столбцы отображаются из-за длины экрана

Я проверил данные и увидел, что все в порядке. Ничего необычного не было, и я перешел к следующему шагу…

Я проверил данные на наличие пропущенных значений с помощью функции pandas.info() и обнаружил, что данные не содержат пропущенных значений. После того, как я прошел все эти проверки, я перешел к анализу.

Страны

Гистограмма показывает нам 10 стран с наибольшим числомсмертей.

Мы видим, что в США было наибольшее количество подтвержденных случаев на момент сбора этих данных, после Бразилии, Индии, России и других стран.

Только в США зарегистрировано довольно большое количество подтвержденных случаев 4 миллиона по сравнению со следующей страной на диаграмме, а именно Бразилией со значением около 2,5 миллиона. сильный>. Вероятно, правительство США вначале не очень серьезно относилось к распространению вируса; Есть много факторов, которые могут быть причиной большого числа подтвержденных случаев в США.

Кто регионы

На этой круговой диаграмме Всемирная организация здравоохранения (ВОЗ) делит мир на «шесть регионов», что также соответствует действительности.

Регион ВОЗ с самой высокой распространенностью вируса — это восточно-средиземноморский регион, а регион с наименьшей распространенностью — западно-тихоокеанский регион.

Скорость восстановления

Святой Престол, Гренада и другие страны, которые последовали за ними, по-видимому, являются странами с самым высоким уровнем выздоровления.

Канада, Сербия, Швеция и другие страны, которые последовали за ними, имели чрезвычайно низкий уровень выздоровления.

Смертность

На гистограмме мы можем увидеть страны с самой высокой долей людей, умерших от вируса. Гистограмма показывает, что в Великобритании, Бельгии, Италии и Йемене самая высокая доля людей, умерших от вируса Covid-19.

Теперь я буду анализировать другой набор данных covid 19, чтобы лучше понять распространение вируса и скорость выздоровления.

Первое, что я сделал, это импортировал данные и проверил их на наличие нулевых и отсутствующих значений, как и для первого набора данных. После всего этого я перешел к анализу вируса.

Тенденция смерти

Первым шагом, который я предпринял, было сгруппировать данные по датам года и найти среднее число тех, кто умер от вируса в каждом месяце. Код этого проекта можно найти в моем репозитории GitHub.

На этом графике показана динамика средних смертей за месяц. Примерно в марте произошел резкий всплеск, примерно в то же время, когда разные страны объявили полную изоляцию.

Тенденция восстановления

На этом графике показано визуальное соотношение между теми, кто ранее вылечился от вируса, и теми, кто выздоровел недавно в течение нескольких месяцев года.

В точке на графике количество людей, которые недавно выздоровели от вируса, немного отличалось от предыдущего выздоровления, но примерно в середине июля произошло резкое снижение по некоторым «странным» причинам.

Основные выводы из этой визуализации.

  1. США — страна с наибольшим количеством подтвержденных случаев
  2. Йемен, Великобритания, Бельгия и Италия вошли в число стран с самым высоким уровнем смертности. Это могло быть следствием ряда причин. Вероятно, их окружающая среда способствовала выживанию и процветанию вируса.
  3. Примерно в марте произошел рост смертности, что привело к тому, что многие страны объявили карантин.
  4. Наблюдалось снижение среднего числа выздоровевших по сравнению с теми, кто выздоровел ранее.

Вы можете проверить код на Github

Если вы найдете статью полезной, похлопайте в ладоши и поделитесь ею. Вы также можете связаться со мной в LinkedIn и Twitter.