Веб-скрапинг, как следует из названия, представляет собой метод автоматического извлечения данных с веб-страниц. Парсинг очень полезен для сравнения цен, исследований и разработок, сбора данных из социальных сетей, списков вакансий и многого другого.
Для парсинга веб-страниц можно использовать множество методов, таких как онлайн-сервисы, API-интерфейсы или даже написание собственного скрипта. И именно поэтому мы здесь. Эта статья научит вас основам извлечения данных из Интернета. Прежде чем мы углубимся в это, давайте кратко рассмотрим, почему мы вообще хотим собирать данные из Интернета.
Зачем нам нужен веб-скрейпинг?
Веб-сайты, как правило, содержат огромное количество информации. Эта информация в основном неструктурирована или загромождена. Когда пользователи посещают веб-сайт, им нужен лишь небольшой процент того, что доступно.
Хотя они могут получить к нему доступ вручную, этот процесс довольно громоздкий, особенно когда речь идет о повторении (учитывая, что данные динамичны и часто обновляются). Следовательно, необходимость парсинга веб-страниц.
После настройки скрипта для конкретной веб-страницы его можно запускать любое количество раз для извлечения данных и их использования по мере необходимости.
Давайте начнем!
Демонстрация парсинга веб-страниц
Этот скрипт будет извлекать данные о погоде с веб-страницы и сохранять их в файл .csv
. Мы будем использовать следующие библиотеки, которые помогут нам в очистке извлеченных данных и управлении ими:
- Запросы — эта библиотека необходима для отправки HTTP-запроса на веб-страницу. Это даст нам доступ к HTML-содержимому веб-страницы, которую мы хотим очистить.
- Beautiful Soup. Эта библиотека предоставляет функции, помогающие извлекать данные из содержимого HTML, которое мы получаем при отправке HTTP-запроса.
- Pandas — эта библиотека помогает нам управлять извлеченными данными. В этом случае мы будем использовать его для сохранения наших данных в файл
.csv
.
Если у вас не установлены вышеупомянутые библиотеки, выполните приведенные ниже команды, чтобы установить их:
# Установка BeautifulSoup
pip install beautifulsoup4
# Установка запросов
pip install requests
# Установка панд
pip install pandas
Написание кода
После установки библиотек выполните приведенные ниже шаги, чтобы очистить данные из Интернета в python3.
- Начните с импорта всех библиотек.
- Отправьте HTTP-запрос на веб-страницу, используя ее URL-адрес. Убедитесь, что код ответа равен 200, что означает, что запрос был выполнен успешно.
- Используйте функцию BeautifulSoup для извлечения необработанного HTML-кода из полученного ответа.
- Из необработанного HTML извлеките нужные нам данные, используя разные селекторы. Здесь используются селекторы «класс» и «идентификатор».
- Сохраните извлеченные данные в кадре данных pandas в виде словаря Python.
- Сохраните фрейм данных в файл csv. Примечание. Мы используем кодировку utf-16BE для правильного отображения символа степени в CSV-файле.
Когда у вас будет готовый код, вы можете развернуть его прямо в облаке с помощью Codesphere. Codesphere позволяет вам избежать хлопот с настройкой, чтобы вы могли уделять больше времени тому, что у вас получается лучше всего: собственно программированию!
Дайте нам знать, что вы собираетесь очистить ниже!
А пока удачного кодирования.