Мы выпускаем общедоступный набор данных о мерах противодействия COVID-19, чтобы специалисты по обработке данных могли найти наиболее эффективные инструменты для победы над вирусом.

Зачем нам эти данные?

Пандемия коронавируса распространяется невероятно быстро, случаи заболевания зарегистрированы в 190 странах мира. Лица, принимающие решения на всех уровнях, изо всех сил стараются сделать все возможное в ситуации, когда каждый день имеет значение, а четкие ответы на них удручающе трудно найти. Возможно, самый важный вопрос, который у кого-то сейчас возникает: что нам делать?

Многие страны в настоящее время вводят строгие ограничения в надежде, что это замедлит тревожный рост числа заболевших и каким-то образом восстановит контроль над ситуацией. В то же время у нас есть пример многих азиатских стран, таких как Сингапур и Южная Корея, в которые прибыло много перевозчиков с самого начала начальной вспышки в Ухань и - хотя они далеко не в удобном положении - имеют при меньше всего сохранился гораздо более медленный рост в числах дел . Хотя существует множество гипотез о том, почему это может быть так, убедительных доказательств мало.

Чтобы помочь ответить на эти и другие вопросы, мы создаем исчерпывающий набор данных об ответах правительств по всему миру на COVID-19. По состоянию на 24 марта наш набор данных в настоящее время включает 1300 записей, собранных 15 добровольцами, которые документируют измерения из 96 стран. На тот же день в зарегистрированных странах зарегистрировано 338 203 из 418 678 подтвержденных случаев заболевания во всем мире. В средней стране в наборе данных зарегистрировано 8 действий, а наиболее тщательно задокументированной страной является Китай, где зарегистрировано 118 мер, и пока нам удалось задокументировать их ответ только до 24 февраля.

Нашей основной задачей является разработка комплексного набора данных о мерах, направленных на сокращение передачи COVID-19. Это такие меры, как изоляция, отслеживание контактов, приостановка деятельности, запреты на поездки и общественная гигиена. Хотя набор данных содержит несколько мер экономического стимулирования и лечения, с тех пор мы прекратили сбор этих элементов, чтобы сосредоточиться на основной проблеме сокращения передачи.

Приглашение для специалистов по данным

Мы думаем, что есть много важных вопросов, на которые можно ответить с помощью этого набора данных. Поэтому мы публикуем его публично в надежде, что специалисты по данным всего мира будут использовать его для открытия новых идей.

Если у вас есть какие-либо вопросы по использованию, вы можете связаться с нами здесь. Обратите внимание, что с 26 марта мы прилагаем серьезные усилия для повышения удобства использования данных и планируем завершить обновление к 28 марта.

Организация

Одна из проблем при создании этого набора данных заключалась в том, что правительства по всему миру приняли огромное количество разнородных ответов. Например, хотя почти каждая страна изолирует подтвержденные случаи COVID-19, может случиться так, что их близких контактов с симптомами также попросят изолировать, или близких контактов изолированы независимо от симптомов, или все их рабочее место закрыто. Людям, находящимся в изоляции, может быть просто приказано оставаться дома или выдано официальное распоряжение, может быть предоставлено пособие или нет, и они могут быть проверены или не проверены полицией. То, что существует так много способов, которыми страна может ответить на положительный тест, является сложной задачей для сборщиков данных - нам необходимо решить, какая информация может оказаться полезной в конечном итоге и как лучше всего структурировать эту информацию. Наше решение состояло в том, чтобы записывать данные в виде ключевых слов или тегов. Это позволяет нам наложить некоторую структуру на данные - повторно использовать теги везде, где мы обнаруживаем, что были реализованы те же меры, - в то же время позволяя сборщику добавлять любые теги, которые, по его мнению, в конечном итоге могут быть важны.

В настоящее время набор данных содержит 200 уникальных тегов. Вероятно, что окончательное количество тегов может быть около этого числа - мы работаем над организацией набора тегов, который уменьшает его количество, но мы также часто обнаруживаем новые типы контрмер, которые требуют добавления новых тегов.

Количество тегов создает проблемы для анализа - очевидно, что невозможно вывести уникальный причинный эффект для каждого отдельного тега. Хотя можно использовать алгоритмические методы для поиска тегов, которые кажутся особенно важными, в данных есть много структур, которые не будут захвачены таким подходом (например, мы могли бы предположить, что уборка общественного транспорта и уборка общественных объектов могут иметь аналогичные последствия). Хотя мы не знаем, как в конечном итоге решить этот вопрос, в настоящее время мы работаем над улучшением структуры данных (например, заменяя собрания более 100 запрещенных на собрания запрещенных вместе с численностью 100 человек. ). Мы также работаем над схемой агрегирования тегов для создания набора данных, который готов к работе для анализа данных.

Источники данных

Мы взяли данные из многих источников, в том числе из национальных министерств здравоохранения и новостных сайтов, но редакторы Википедии заслуживают особой благодарности за то, что так быстро собрали так много информации об опыте каждой страны мира с этой пандемией. Мы также хотим поблагодарить Наш мир в данных, от которого мы включили набор данных с числами тестов.

Есть ряд других баз данных ответов правительства, о которых нам известно: Обмен гуманитарными данными проделал невероятную работу по каталогизации ответов правительств по всему миру, а Оксфорд выпустил впечатляюще всеобъемлющий трекер реакции правительства на COVID-19. Мы считаем, что у каждого из наших наборов данных есть независимые сильные стороны, и мы обращаемся к обеим командам, чтобы обсудить, как лучше всего объединить наши ресурсы.

Уроки выучены

Удивительно, как много людей во всем мире готовы выделить время, чтобы помочь в этом исследовании. Всякий раз, когда я упоминал о проекте в каком-либо месте, я получал огромное количество предложений о помощи, и хотя я искренне ожидал, что многие приложат небольшие усилия, а затем отвлекутся на обычную жизнь, я обнаружил, что большинство людей, которые пришли на помощь, были действительно посвящены не только заполнению набора данных, но и пониманию конечной цели и предложениям о том, как ее можно улучшить. Я невероятно благодарен всем, кто внес свой вклад до сих пор, и я уверен, что это набор данных, который поможет людям принимать жизненно важные решения в ближайшие недели и месяцы.

Будущие шаги

Повышение удобства использования данных в настоящее время является нашим наивысшим приоритетом. Мы также работаем над тем, чтобы привести эту базу данных в состояние «относительного завершения» (точка, в которой мы ожидаем иметь около 3000 измерений) и поддерживать наши данные в актуальном состоянии.

Мы также стремимся включить различные типы данных. Например, мы заинтересованы в получении данных о влиянии мер социального дистанцирования и использования лицевых масок - простой вклад, который вы можете внести в наши усилия, - это заполнить этот опрос сегодня.

Мы искренне надеемся, что этот набор данных вместе с навыками специалистов по обработке данных со всего мира может помочь лицам, принимающим решения, найти лучший способ преодолеть этот быстро развивающийся кризис, когда все последствия неопределенны, где каждое решение имеет пугающие ставки и где каждый день имеет значение.