В последнее время из-за пандемии коронавируса информация о вероятных местах возникновения вспышек заболеваний необходима для обеспечения безопасности. К счастью, заголовки новостей содержат огромное количество информации, которая может рассказать людям о COVID-19; однако просмотр тысяч новостных статей является проблемой для многих.
Наш проект направлен на решение этой проблемы путем извлечения соответствующей информации из заголовков новостей и организации этой информации в доступной форме. В следующем наборе статей различные компоненты этого проекта будут подробно проанализированы следующим образом:
- Часть 1. Использование HTML-синтаксического анализа для извлечения заголовков новостей
- Часть 2: Определение потенциальных вспышек COVID-19 с помощью неконтролируемых алгоритмов кластеризации машинного обучения
- Часть 3. Использование базовой карты и Matplotlib для построения кластеров K-средних
- Часть 4: Автоматизация ноутбука Jupyter с помощью AWS
Основная реализация проекта описана в следующих шагах:
- Шаг 1. С помощью библиотек Beautiful Soup и Django заголовки 100 лучших новостных веб-сайтов в мире и США анализируются с помощью HTML-кода. алгоритм, который определяет, имеют ли они отношение к пандемии коронавируса.
- Шаг 2: эти заголовки новостей затем проверяются через базы данных стран, штатов, городов и округов, чтобы определить местонахождение географических горячих точек коронавируса в мире. Затем с помощью библиотек Geonamescache и Pandas соответствующие заголовки сохраняются во фрейме данных с соответствующими координатами географической широты и долготы.
- Шаг 3. Используя библиотеку sklearn, выполняется алгоритм кластеризации k-средних для определения географических кластеров на основе широты и долготы, создаваемых заголовками. Затем с помощью библиотек Matplotlib и Basemap эти кластеры наносятся на географическую карту для визуализации вспышек заболеваний.
- Шаг 4: AWS Sagemaker использовался для обеспечения необходимой вычислительной мощности для анализа заголовков новостей в режиме реального времени; Кроме того, Lambda и CloudWatch Events в координации с другими сервисами AWS использовались для автоматизации работы Jupyter Notebook.
Соответствующий код можно найти здесь: