Можно было бы рассматривать ядерную войну и климатическую катастрофу как самую большую неудачу, которую могло когда-либо испытать человечество, но люди не смогли признать, что появление какого-либо нового инфекционного заболевания потенциально может уничтожить большую часть человеческого существования в кратчайшие сроки. Как и раньше. Несмотря на интенсивные исследования характера этих эпидемических вспышек, когда, где и как возникают эти вспышки, остается за пределами понимания. Тяжелое респираторное заболевание было зарегистрировано в Ухань, провинция Хубэй, Китай. По состоянию на 25 января 2020 года, было зарегистрировано не менее 1975 случаев с момента госпитализации первого пациента 12 декабря 2019 года. После филогенетического анализа полного вирусного геном, было обнаружено, что он тесно связан с SARS-подобным вирусом, который относится к семейству Coronaviridae, и первоначально назвал его как SARS-CoV-2 , а затем переименовали в Covid19. Эта вспышка подчеркивает постоянную способность распространения вируса от животных вызывать тяжелые заболевания у людей.

В эту эпоху развитого Интернета можно легко собирать данные из сообществ с открытым исходным кодом, чтобы понять, манипулировать и вырабатывать шаблоны, которые могут привести к потенциально положительным выводам. Этот блог дает вам сложные знания обо всех аспектах мышления, сложившихся в этот кризисный период. Эти Исследовательский анализ данных и Внедрение машинного обучения основаны на наборах данных временных рядов CSSE Университета Джона Хопкинса.

Каждый график, показанный в следующих разделах, взят из веб-приложения, которое я разработал и развернул, под названием « Веб-приложение для разведки и прогнозирования COVID19 . » Если вы прибываете сюда, из Приложения, я гарантирую, вы будете хорошо читать. если вы непосредственно читаете этот блог, я рекомендую вам попробовать приложение, оно дает вам интуитивное объяснение всего

через интерактивные сюжеты, которые я создал с помощью Python Magic.

Понимание данных и предварительной обработки

В отличие от других задач, таких как анализ фондового рынка, прогнозирование таких вещей, как финансовая статистика на основе набора данных и т. Д., вам необходимо иметь определенный уровень Знание предметной области, чтобы даже начать интерпретировать наборы данных. Covid19 Набор данных довольно прост для любого, кто может разобраться в типичных подходах к реализации различных визуализаций. Я решил работать с наборами данных Временные ряды, где каждый столбец представляет дату с числовым значением в каждой ячейке, представляющим количество зарегистрированных случаев в этот день.

Изначально при любой возможной проблеме анализа данных или машинного обучения ни один набор данных не свободен от s ненужных значений, заполнителей, уникальных символов или даже пропущенных значений, кроме случаев Искусственно созданный или Предварительно обработанный. Предварительные проверки любого из вышеперечисленных типов ни в коем случае нельзя игнорировать, любой сложный алгоритм не принимает неочищенный data любой ценой, он почти сразу же выдает ошибку, когда сталкивается с чем-то незнакомым, а не с обычными числовыми значениями, как должно быть. Во многих случаях сообщение об ошибке даже недостаточно для понимания, чтобы даже отследить проблему непосредственно до ее источника. В этом случае вам необходимо воспроизвести весь сценарий один раз. еще раз, чтобы воссоздать проблему и решить ее. что явно пустая трата времени. Итак, как видно из приведенного выше рисунка, у нас действительно есть пропущенные значения в столбце Провинция / штат, который я вменял строке с надписью «Незарегистрированный» на данный момент, Питонический способ сделать это будет

confirmed_df.fillna(value='Unregistered', inplace=True)
recovered_df.fillna(value='Unregistered', inplace=True)
deaths_df.fillna(value='Unregistered', inplace=True)

Исследовательский анализ данных

Данные должны говорить с глазами, потому что они лучше всех оценивают пропорции и могут оценивать их с большей скоростью и точностью, чем любой другой из наших органов. Действительно хорошая визуализация данных создает форму и форму для ряда отдельных идей, которые в остальном являются абстрактными и несвязанными.

Уильям Плейфэр

Краткий обзор мирового сценария

Примечание. Несмотря на то, что каждый снимок экрана (изображения) любых диаграмм визуализации, используемых в этом блоге, взят из моего приложения, я при необходимости отредактировал расположение графиков для эстетики . Итак, изначально представленная выше круговая диаграмма представляет собой единую диаграмму.

Над круговой диаграммой представлена ​​сводка текущего сценария, разложенная на числовые значения. примечательным аспектом этого вируса является то, что он низкий уровень смертности, но в то же время очень заразен. Похоже, что на людей младшего возраста он оказывает лишь незначительное влияние. Согласно отчетам, большинство людей, умерших от Covid19, имеют основное заболевание, подобное Диабет, почечная недостаточность, респираторные проблемы, такие как астма и т. Д., которые в совокупности увеличивают активность вируса в организме, что приводит к смертности.

Смертность и скорость выздоровления

Смертность и скорость восстановления позволяют нам интуитивно понять, насколько вирус может доминировать в организме человека. с этими значениями мы можем оценить, как люди из разных регионов реагируют на один и тот же вирус. В Индии уровень смертности составляет 1,6%, а в США - 2,9%. США и Индия используются в этом контексте, поскольку они, похоже, имеют относительно одинаковую частоту подтвержденных случаев за время , поэтому их сравнение принесет пользу эта точка силы вируса зависит от людей, принадлежащих к тому или иному региону. Для лучшего контраста: самый высокий уровень смертности был отмечен в Италии, и он составляет 11,7%. Это очень интересно Подумайте об этом статистически: даже в семи критически пострадавших странах сейчас уровень смертности не менее 3%.

График временных рядов с самого начала

Графики временных рядов позволяют нам заново интерпретировать забытое прошлое с помощью данных. Из приведенного выше графика мы можем изучить скорость регистрации случаев, несмотря на объявление глобальной блокировки. люди явно не следовали инструкциям, отсюда и вышеперечисленные случаи. В приложении я оставил заметку, в которой перечислял несколько стран, графики временных рядов которых весьма интересны. то, что я заметил, - это категории, которые должны быть нанесены (подтвержденные, восстановленные, смертельные и активные), находятся в произвольной формации, а не в виде графика с последовательной кривой, который был обычным для большинства стран, как показано на рисунке выше .

Первоначально, когда covid19 поразил несколько стран, протоколов тестирования не существовало, поскольку эта ситуация беспрецедентна. без надлежащих протоколов или руководящих принципов скорость тестирования была минимальной, позже, когда прибыли сложные наборы для тестирования и были применены надлежащие протоколы, вы можете наблюдать, как график со временем увеличивался. что только доказывает, что чем больше количество тестов, тем больше будет записанных совокупных показателей за день. Это также подтверждает аргумент о том, что изначально может быть больше случаев, чем фактически сообщенных. Из-за изначально использованных наивных методов тестирования, по некоторым оценкам, было получено большое количество ложных срабатываний и ложноотрицательных результатов.

Страдающие мировые лидеры

Представление о том, что доминирующие в мире страны могут справиться с любым кризисом, быстро исчезло из-за этого беспрецедентного события. Китай, в данном обсуждении, пока игнорируется из-за предполагаемого неоднозначного участия в этой пандемии. Итак, учитывая других мировых лидеров, таких как США, Япония, Германия для объяснения . Судя по анализу, никто из них не мог лучше противостоять судебным делам в индивидуальном порядке из-за того, что люди нерешительно относились к общественным нормам, разработанным специально для изоляции. Но контраст между всеми ними в совокупности очевиден, что ясно показывает вклад сообщества в противодействие распространению в нескольких странах. Примером этого является Япония, посмотрите на подсюжеты ниже.

Подтвержденные обращения

Индия по сравнению с США быстро увеличила темпы возникновения случаев заболевания и сейчас почти уравновешена с ними, хотя вначале поздно. распространение сообщества - единственный критерий возможности этого. На данный момент Индия сообщает в среднем ›40 тысяч случаев, включая случай, когда он достиг пика 90 тысяч случаев Визуализация через день дает нам представление о случаях, происходящих с момента возникновения до настоящего времени.

Восстановление и смерть

Показатель выздоровления в Индии составляет 83,3%, несмотря на почти 61 лакхов На национальном уровне. Есть предположения, что в Индии существует Т двух линий covid19, одна из которых имеет более высокий уровень инфицирования, чем другая, но с минимальным уровнем смертности. Этот аргумент можно подтвердить, если вы посмотрите на диаграмму C horopleth-Map, охватывающую зараженные регионы. Махарастра имел самый высокий уровень заражения.

Поскольку мы уже ведем разговор о смерти и выздоровлении, вам может быть интересно узнать, как на самом деле действует covid19 воздействуют или атакуют организм на биологическом уровне. Вот краткое объяснение того, как это сделать, говоря языком непрофессионала.

Путешествие вируса

Вирус - это, по сути, сосуд, содержащий генетический материал и несколько белков, возможно, даже не живое существо. Он может размножаться, только войдя в живую клетку, что сделает ее возможным хозяином. Основным путем заражения является капельная инфекция, когда люди кашляют и вы подходите к ближайшему окружению, тогда вы можете заразиться вирусом через капли или потереть глаза. или нос после прикосновения к поверхностям с вирусом.

Вирус начинает свой путь от носа или глаз, затем проникает глубже в тело, его потенциальные места для колонизации - селезенка и легкие. С другой стороны, легкие являются наиболее вероятным местом назначения, легкие выстланы миллиардами эпителиальных клеток, которые являются пограничными клетками тела, выстилающими органы и слизистую оболочку, которые наиболее уязвимы для заражения. На рисунке представлена ​​структура вириона коронавируса. Спайкоподобная структура - это гликопротеин, который действует как ключ для доступа к клеточной оболочке, этот белок Спайк соединяется с определенным рецептором (ACE2), таким как ключ и действие замка, и вводит генетический материал, который вирус переносит в клетку, клетка, не осведомленная о том, что происходит, распознает его как «Новая инструкция» и «Выполняет» ее, а также инструкции просто "Копировать и дублировать". После достижения порога он делает последний приказ самоуничтожиться, чтобы созданные дубликаты высвобождались и повторяли процесс рекурсивно, пока не сработает иммунная система. Отсюда все зависит от медицинских качеств человека. реагируют на инфекцию.

Краткий взгляд в будущее с машинным обучением

Модель машинного обучения математически реализует и изучает закономерности в двумерном наборе данных, так что любые будущие данные без целевых значений при передаче в модель, а затем модель с учетом математического шаблона ранее доработанная, сможет эффективно прогнозировать целевые значения с определенной точностью в зависимости от сложности модели.

Термин линейный относится к взаимосвязи между двумя переменными, которая при нанесении на график дает нам прямую линию. Рассматривая две переменные, одна из которых содержит зарегистрированные даты, а другая - с подтвержденными случаями, при нанесении на график мы можем сначала наблюдать линейный рост, но вскоре он начинает изгибаться; Таким образом, чтобы соответствовать большинству точек данных для достижения минимальных потерь, мы используем, чтобы преобразовать данные из линейного отношения в полиномиальное. Чтобы увеличить сложность функций, мы можем добавить мощности исходных функций в качестве новых функций, чтобы сгенерировать уравнение более высокого порядка.

Я решил создать модели машинного обучения для семи наиболее пострадавших стран,

India, USA, Russia, Peru, Mexico, Brazil, Colombia

Вышеупомянутая функция создает 7 различных моделей 7 стран на основе их модели роста в подтвержденных случаях от первого зарегистрированного случая до последней даты в наборе данных, я считаю это наивным подходом к созданию моделей машинного обучения для 7 разных стран с сохраняя одни и те же гиперпараметры для всего, что в некотором роде нетрадиционно, но я решил пока оставить это включенным. Прогнозы могут быть или не быть достаточно точными, но определенно дадут вам правильную интуицию в том, какой числовой диапазон считается охватывающим в конкретной стране. Итак, прежде чем обращаться к известным источникам, таким как Worldometeres для перекрестной проверки этих прогнозов на истинные значения , Я хотел, чтобы вы подтвердили это.

Улучшение

Что касается улучшений указанной выше модели и приложения, в целом я считаю текущий выпуск версией 1.0. Сюжетов, которые я создал, на данный момент достаточно, чтобы получить правильное аналитическое обоснование этого текущего биологического кризиса, и весь опыт развертывания является дополнением к моей траектории обучения. Поддержание такой последовательности версий позволяет мне организовывать мои проекты последовательно, в то время как моя траектория обучения постоянно растет. Из-за этого теперь, когда я начинаю работать над следующей версией этого приложения, поскольку моя кривая обучения расширяется, я теперь могу внедрять новые и интересные вещи в старую версию. Я создал раздел на странице ReadMe для этого репозитория, я назвал его версией пророчества, где я записываю, что нужно сделать на следующий день. выпускать.

Окончательный прогноз

Этот анализ данных дает представление о состоянии, при котором без самоизоляции и несоблюдения социальных руководящих принципов, разработанных для этой пандемии, возможность распространения инфекции среди населения не может быть исключена. на данный момент уже существуют предположения о второй волне, которая затронет отдельные страны. Люди уже делают ошибку в своих суждениях о ситуации. Они признают коэффициент выздоровления и связывают себя с некоторыми критериями, основанными на этом количестве, сообщества признают эту теорию иммунитета стада при этом совершенно не осознавая его последствий.

Эта пандемия классифицируется как Быстрая пандемия из-за высокого уровня заразности. Если мы позволим ему распространиться, могут быть случаи, когда при 70 тысячах зарегистрированных случаев может быть как минимум 30 тысяч человек , которым потребуется сложная медицинская поддержка. если потенциал системы здравоохранения низкий, то в этом случае будет значительное количество смертей. «Пандемию можно замедлить с помощью правильных ответных мер». Многие страны, показанные выше в блоге, являются основными примерами этих наихудших сценариев.

Сейчас все давит на нас, единственным решением будет самоизоляция и поддержание минимального контакта в ожидании, пока Умные люди сделают свою работу.

Исходный код

Ссылка на репозиторий GitHub, в котором размещено это приложение ~ здесь

Ссылки