Машинное обучение + человеческий интеллект против COVID-19: часть 1

Введение:

Глобализация объединила страны в большем количестве способов, чем когда-либо прежде. Потребители, корпорации и правительства теперь в целом имеют беспрепятственный доступ к инновациям, рынкам, продуктам и услугам. Хотя глобализация имеет множество преимуществ, она также сопряжена с сопутствующими рисками, как мы видели на примере недавнего вируса SARS-COV2. Специалисты по инфекционным заболеваниям бьют тревогу по поводу необходимости эффективного и единообразного ответа на эти угрозы из-за скорости, с которой инфекционное заболевание может распространяться в результате нашей глобальной взаимосвязанности.

COVID-19 (заболевание, вызванное вирусом SARS-COV2) полностью захватило нашу жизнь, оказав существенное влияние на жизнь бесчисленного множества граждан мира. Вопрос, который волнует всех: «Как нам приспособиться к этой новой норме?»

В частности, что мы можем узнать о моделях и профилактике, когда мы анализируем, как мигрирует инфекционное заболевание, такое как COVID-19, и оцениваем, как его распространение влияет на отрасли? Это понимание может помочь обосновать директивы общественного здравоохранения, направленные на сдерживание миграции болезни, и в то же время уменьшить возникающую нагрузку на экономику.

Цели исследования:

Чтобы лучше понять эти закономерности, наши команды Data Science в Inspired Intellect и WorldLink инициировали научно-исследовательский проект с гипотезой о том, что расширенная аналитика может раскрыть идеи для решения вышеуказанных вопросов. Мы также искали практические приложения для развертывания наших результатов, чтобы помочь нашим клиентам понять, как их бизнесу придется адаптироваться, чтобы выжить в быстро меняющейся новой норме.

Мы сосредоточили наши исследовательские усилия на 4 различных направлениях:

1. Создание озера данных информации как основы нашего исследования.

2. Сопоставление и категоризация экспериментальных методов лечения, терапии и исследований вакцин в семантическую библиотеку знаний, основанную на поиске для поддержки передовых медицинских работников и практикующих врачей, которые следят за тенденциями исследований в этих областях (здесь)

3. Анализ социального слушания и связанного с ним неструктурированного текста для выявления и выявления актуальных тем и проблем, о которых говорят люди.

4. Машинное обучение и получение информации для определения факторов, влияющих на распространение вируса, для прогнозирования увеличения и уменьшения числа вирусных эпицентров с течением времени.

Эта статья описывает усилия команды в отношении четвертого трека, упомянутого выше, и является частью 1 нашей серии из двух блогов. Эта серия блогов сфокусирована на ответах на следующие вопросы:

· Почему одни округа / города пострадали больше, чем другие?

· Почему существуют различия в уровнях смертности среди наиболее зараженных округов?

· Каковы основные закономерности и факторы распространения вируса и его смертности?

В этой первой части мы дадим рекомендации о том, как уменьшить распространение инфекционных заболеваний, основываясь на нашей работе с использованием данных на уровне округов и методов машинного обучения. В части 2 мы исследуем данные модели, ее особенности и идеи.

Мы считаем, что научный подход, основанный на данных, может помочь ответить на эти вопросы и, что более важно, дать информацию для принятия решений целому ряду заинтересованных сторон:

· Разработчики политики: Были ли приняты достаточные меры для контроля распространения инфекции? Если нет, то как снизить риски?

· Владельцы бизнеса: Является ли мой бизнес потенциальным вектором распространения вируса? Какие меры следует принять во внимание, чтобы вести бизнес таким образом, чтобы это было безопасно для сотрудников и клиентов?

· Физические лица: Какие меры мы можем предпринять, чтобы остановить распространение вируса?

Примечание редактора: это сообщение в блоге было написано для того, чтобы осветить основанный на данных взгляд на то, как новейшие передовые методы аналитики могут исследовать движущие факторы пандемии COVID-19, и собрать рекомендации для информирования должностных лиц в их ответных мерах политики. Для этого я был соавтором этого блога со своим коллегой Дарреллом Сильвой, который работает специалистом по анализу данных в нашей сестринской организации Вдохновленный интеллект. В компании WorldLink и Inspired Intellect было еще несколько человек, которые занимались сбором данных и разработкой моделей, необходимых для получения информации о пандемии и потенциальных действиях по смягчению ее воздействия.

Наши выводы: руководство для руководства по пандемии

Чтобы получить наши окончательные рекомендации, команда Inspired Intellect провела несколько моделей машинного обучения на широком пересечении наборов данных на местном, региональном и национальном уровнях. Результаты оказались неожиданными и представляют собой действенные шаги, которым могут следовать заинтересованные стороны, стремясь смягчить негативное воздействие пандемии.

В частности, некоторые выводы, извлеченные из наших моделей, служат в качестве основных соображений в контексте разработки учебного пособия по реагированию на пандемию.

1. Необходимость в стандартах детализации и сбора данных. Используемые нами данные были собраны на уровне округа и опубликованы для общественного потребления в рамках проекта отслеживания COVID-19. В первые дни создания отчетов по проекту было ясно, что стандарты сбора данных не были обязательными для разных штатов и округов, что ограничивало возможности машинного обучения. Во-вторых, как явствует из общественного достояния, это также мешает лицам, принимающим решения в области общественного здравоохранения. Наконец, во время этого исследования постоянной проблемой была полнота данных. Тот факт, что наложения демографической статистики с отслеживанием переписи из внешних источников вышли на первое место среди наших важных характеристик, демонстрирует ценность сбора демографических, психографических, социально-экономических, а также ранее существовавших / лежащих в основе данных о состоянии здоровья на уровне детализации каждого конкретного случая. . Вместе с надежной методологией отслеживания контактов эти данные могут дать ценную информацию, которая позволит сбалансировать меры сдерживания с поддержанием экономики страны на плаву во время пандемии.

2. Положительная корреляция с увеличением автономии принятия решений на местном уровне: Наши модели косвенно демонстрируют, что автономия местного уровня округа (или, возможно, даже уровня города) с политикой общественного здравоохранения может быть более эффективной в предотвращении распространения и, как показали некоторые из наших ключевых независимых переменных, округу также может потребоваться сотрудничество соседних округов (или городов) для достижения успеха. Верно, что в первые недели может быть уместен общий подход, чтобы дать лицам, оказывающим первую помощь, и лицам, определяющим политику в области общественного здравоохранения, возможность организовать, определить планы действий и задействовать ресурсы. Однако, как мы видели, если это время не используется надлежащим образом для механизации надежных ответных мер на пандемию, вполне вероятно, что в округе будет наблюдаться эскалация инфекций и повышенная вероятность получения от властей приказа о предоставлении убежища / закрытии. Естественно, это отрицательно сказывается на здоровье людей и, в конечном итоге, тормозит экономику.

3. Важность государственной и федеральной поддержки: Удивительно важные независимые переменные, такие как близость округа к крупным аэропортам, иллюстрируют, что поддержка штата и федерального правительства может быть лучше направлена ​​на ограничение международных и межгосударственных поездок для смягчения последствий распространять. Кроме того, мы увидели, что государственная и федеральная поддержка была очень эффективной в смягчении распространения болезни, когда она использовалась для обеспечения надлежащего доступа к медицинским учреждениям. В наших моделях это материализовалось как койки в отделениях интенсивной терапии, но их можно легко экстраполировать на все остальное, что необходимо для поддержания работоспособности больниц и отделений интенсивной терапии (от средств индивидуальной защиты, кислородного и вентиляционного оборудования до финансирования тестирования на вирусы, лечения и исследований вакцин). Наконец, ресурсы штата и федеральные ресурсы должны быть направлены на определение стандартов сбора данных, предоставление рекомендаций и передовых методов анализа собранных данных, поскольку администраторы округов (или городов) могут не располагать ресурсами для распознавания закономерностей за пределами их местного географического положения.

4. Устранение разрыва между здоровьем и равенством. Состояние справедливости в отношении здоровья стало одним из наиболее показательных аспектов COVID-19, определяемым как способность граждан, принадлежащих к разным социальным слоям, получать равную медицинскую помощь. Хотя наши модели косвенно отражают его влияние через демографические показатели на уровне округов, данные о плотности населения и чистой миграции, они, тем не менее, выдвигают на первый план риск для здоровья, с которым сталкиваются обездоленные слои населения. Население в этих регионах не только более склонно к проявлению основных заболеваний из-за профессиональных особенностей или особенностей образа жизни, но и зачастую не имеет доступа к адекватной медицинской помощи или финансовых средств для ее использования в случае заражения. Основываясь на анализе, программы по устранению этого социально-экономического разрыва в отношении доступа к здравоохранению могут оказаться ценным вложением в замедление распространения и смертности, связанных с пандемией.

Взятые вместе, эти пункты эффективно отражают причины нынешнего «состояния битвы с COVID-19» в США. Это, конечно, не один человек, одно агентство или что-то одно, а настоящий шторм неподготовленности в контексте признания того, «кто», «что», «почему», «когда», «где» и «как» победить. COVID-19 эффективно.

Наше исследование продемонстрировало, как машинное обучение может быть мощным инструментом, помогающим политикам в разработке соответствующих планов действий по противодействию угрозе пандемии. Интерпретируя каждую независимую переменную по отдельности, легко упустить из виду более общую картину того, что нам говорят модели.

Что стоит за использованными нами количественными и прогнозными моделями:

Учитывая растущий объем данных, связанных с вирусом COVID-19, у нас было множество вариантов построения нашей модели. Обнаруживая эти идеи, команда Inspired Intellect использовала следующие атрибуты и модели:

- Атрибуты данных

1. Ежедневные данные о случаях заболевания и смерти COVID-19 для каждого округа в Соединенных Штатах (США), собранные и опубликованные New York Times в период с 1 января 2020 г. по 31 мая 2020 г. (Coronavirus (COVID -19) данные по США, 2020 г.).

  1. Данные о социально-экономических характеристиках и характеристиках справедливости в отношении здоровья, такие как размер населения, уровень безработицы, род занятий, доход домохозяйства, размер домохозяйства, койки интенсивной терапии для каждого округа в США (социально-экономические данные на уровне округа в США, 2019 г.)
  2. Площадь земли в квадратных милях, данные о населении, внутренней и международной миграции, гендерные пропорции, возрастные группы для каждого округа в США, захваченные и опубликованные Бюро переписи населения США (данные переписи на уровне округов в США, 2019 г.)
  3. Данные о мобильности, отражающие динамику тенденций с течением времени по географическому признаку, в различных категориях мест, таких как розничная торговля и отдых, продуктовые магазины и аптеки, парки, станции общественного транспорта, рабочие места и жилые дома (данные Google о мобильности)
  4. Данные об аэропортах: близость аэропортов для каждого округа, важность аэропортов (openflights.org и Бюро транспортной статистики)

- Модели

  1. Модель количественной оценки риска: оценка риска присваивается каждому округу на основе скорости изменения в округе показателей инфицирования, уровня смертности и плотности населения. Цель этой модели - помочь нашим клиентам подготовить планы действий на основе соответствующих округов.
  2. Модель машинного обучения уровня заражения: модель, прогнозирующая, увеличится ли уровень заражения в данном округе по сравнению с предыдущей неделей. Модель также определяет драйверы (важность функций), лежащие в основе увеличения скорости заражения, и помогает анализировать изменения в точках доступа с течением времени.
  3. Модель машинного обучения уровня смертности: модель, прогнозирующая, увеличится ли уровень смертности в данном округе по сравнению с предыдущей неделей. Модель также выявляет движущие силы (важность характеристик), лежащие в основе увеличения уровня смертности, и помогает идентифицировать уязвимые демографические группы.

Разрешающие технологии, которые мы использовали:

Хорошо известно, что аналитические модели хороши ровно настолько, насколько хороши данные, которые они используют. Нельзя приуменьшить важность согласованных стандартов представления данных, постепенного расширения рассматриваемых активов данных, а также периодического переобучения моделей на основе последних данных. Чтобы предоставлять такие возможности последовательно и в нужном масштабе, мы должны признать роль прочной основы для управления данными.

Когда мы начали нашу исследовательскую инициативу на ранних этапах пандемии, достигающей территории США, мы столкнулись со значительными проблемами с данными. Как мы отмечали ранее, стандарты отчетности о COVID-19 только зарождались, если они вообще существовали, и развивались. Следовательно, получение данных, которые были собраны единообразно во всех округах, было трудным и потребовало от нас большого объема преобразований. Еще одна проблема, с которой мы столкнулись, заключалась в отсутствии исторической цепочки аудита ежедневной статистики, связанной с инфекциями, смертностью и выздоровлением. Еще одно препятствие было связано с тем фактом, что форматы данных изначально не были согласованными. В конце концов, появились инициативы с открытым исходным кодом, такие как Проект отслеживания COVID-19, которые помогли решить некоторые из наших первоначальных проблем, но даже те, которые требовали опыта работы с возможностями управления полу / неструктурированными данными для извлечения, хранить и преобразовывать данные в файлах JSON или PDF-отчетах.

В приведенной ниже таблице представлен наш выбор технологий для того, что начиналось как внутренние исследования и разработки, но быстро расширяется до предложения по запросу нескольких клиентов. Возможности, предоставляемые последним, несколько других технологий представляют собой жизнеспособные альтернативы в рамках нашего технологического стека предложений.

Выбор технологии в конечном итоге будет определяться множеством факторов - от самых очевидных, таких как соответствие стратегии вашей корпоративной архитектуры и простота интеграции с другими корпоративными бизнес-приложениями, до менее очевидных, таких как масштабируемость производительности решения, которое постоянно развитие с течением времени или гибкость для адаптации к различным потребностям в данных и аналитике по мере развития вашего бизнеса. Чтобы обеспечить успех этой инициативы, команда Inspired Intellect опиралась на свой обширный опыт в анализе ландшафта решений, чтобы согласовать предприятие / данные с лучшими в своем классе инструментами.

Вывод:

В ходе нашего исследования мы обнаружили, что практически невозможно получить оценку «А», пытаясь смягчить эффект глобальной пандемии, но что довольно легко получить оценку «В». COVID-19 изменил жизнь множества людей, семей, предприятий и стран, и наша цель - использовать новейшие передовые аналитические методы, чтобы поднять почву для наших граждан мира и повысить наши шансы на успех сейчас и в будущем. усиления глобализации.

Inspired Intellect - поставщик комплексных услуг по управлению данными, аналитике и разработке приложений. Мы участвуем в портфеле предложений, начиная от стратегического консультирования и проектирования, до разработки и развертывания, и заканчивая устойчивыми операциями и управляемыми услугами.

Созданная в 2020 году в результате слияния двух хорошо зарекомендовавших себя сервисных компаний, Avalon Consulting, LLC и WorldLink Consulting, мы ускоряем процесс цифровой трансформации наших корпоративных клиентов, позволяя им быстро преобразовывать свои информационные активы в коммерческие информационные продукты и идеи.

Уникальное использование методов организационной психологии Inspired Intellect отличает нас в плане ускорения внедрения технологических решений нашими клиентами и снижения рисков. Мы понимаем, что человеческий аспект процесса трансформации имеет решающее значение для достижения превосходных бизнес-результатов.

Более дюжины компаний из списка Fortune 100 из разных отраслей выбирают Inspired Intellect для расширения возможностей цифровых технологий.

Благодарности:

В этой статье отражена работа Прашанта Наяка, Даррелла Сильвы и Феликса Саймона, которые сотрудничали в поиске источников данных о COVID-19, разработке связанных моделей машинного обучения и развертывании моделей, обсуждаемых в этой статье.

Более широкая команда, в которую входили Бабу Мэтью, Кишан Матам, Уилл Тайер и Феликс Саймон во главе с Брайаном Монтейро, взялась за спектр аналитических задач, которые были представлены в верхней части этой статьи.

Статью, описывающую вклад Уилла Тайера в достижение целей этого исследования, можно найти здесь.