В последнее время из-за пандемии коронавируса информация о вероятных местах возникновения вспышек заболеваний необходима для обеспечения безопасности. К счастью, заголовки новостей содержат огромное количество информации, которая может рассказать людям о COVID-19; однако просмотр тысяч новостных статей является проблемой для многих.

Наш проект направлен на решение этой проблемы путем извлечения соответствующей информации из заголовков новостей и организации этой информации в доступной форме. В следующем наборе статей различные компоненты этого проекта будут подробно проанализированы следующим образом:

  • Часть 1. Использование HTML-синтаксического анализа для извлечения заголовков новостей
  • Часть 2: Определение потенциальных вспышек COVID-19 с помощью неконтролируемых алгоритмов кластеризации машинного обучения
  • Часть 3. Использование базовой карты и Matplotlib для построения кластеров K-средних
  • Часть 4: Автоматизация ноутбука Jupyter с помощью AWS

Основная реализация проекта описана в следующих шагах:

  • Шаг 1. С помощью библиотек Beautiful Soup и Django заголовки 100 лучших новостных веб-сайтов в мире и США анализируются с помощью HTML-кода. алгоритм, который определяет, имеют ли они отношение к пандемии коронавируса.
  • Шаг 2: эти заголовки новостей затем проверяются через базы данных стран, штатов, городов и округов, чтобы определить местонахождение географических горячих точек коронавируса в мире. Затем с помощью библиотек Geonamescache и Pandas соответствующие заголовки сохраняются во фрейме данных с соответствующими координатами географической широты и долготы.
  • Шаг 3. Используя библиотеку sklearn, выполняется алгоритм кластеризации k-средних для определения географических кластеров на основе широты и долготы, создаваемых заголовками. Затем с помощью библиотек Matplotlib и Basemap эти кластеры наносятся на географическую карту для визуализации вспышек заболеваний.
  • Шаг 4: AWS Sagemaker использовался для обеспечения необходимой вычислительной мощности для анализа заголовков новостей в режиме реального времени; Кроме того, Lambda и CloudWatch Events в координации с другими сервисами AWS использовались для автоматизации работы Jupyter Notebook.

Соответствующий код можно найти здесь: