Что такое веб-скрапинг?
Веб-скрапинг, веб-сбор или извлечение веб-данных — это парсинг данных, используемый для извлечения данных с веб-сайтов. Программное обеспечение для очистки веб-страниц может напрямую обращаться к всемирной паутине с использованием протокола передачи гипертекста или веб-браузера. Хотя просмотр веб-страниц может выполняться пользователем программного обеспечения вручную, этот термин обычно относится к автоматизированным процессам, реализованным с использованием бота или поискового робота. Это форма копирования, при которой определенные данные собираются и копируются из Интернета, как правило, в центральную локальную базу данных или электронную таблицу для последующего поиска или анализа.
Пример: я хочу извлечь несколько предложений с веб-сайта
Шаг 1 — Определите, чего вы хотите
Шаг 2 — Перейти к исходному коду
Узнайте, в каких элементах находятся слова, которые вы ищете.
Шаг 3 — Импортируйте необходимые библиотеки
from urllib.request import urlopen from bs4 import BeautifulSoup import pandas as pd
если у вас нет BeautifulSoup, pandas или urllib, установите их через pip или pip3:
pip install bs4 pip install urllib pip install pandas
Шаг 2 — Скопируйте / вставьте URL-адрес страницы
url = 'https://sentence.yourdictionary.com/about' page = urlopen(url)
Шаг 3 — Чтение и декодирование HTML
html_bytes = page.read() html = html_bytes.decode('utf-8')
Шаг 4 — Разберите HTML с помощью BeautifulSoup и определите список
soup = BeautifulSoup(html, 'html.parser') div = soup.find(class_="sentences-list") data = list()
Шаг 5 — Создайте цикл по словам и извлеките их:
for span in div.find_all('span'): if len(span.text) > 10 and len(span.text) < 71: words = span.text.replace('\"', '') df.append(words)
Шаг 6 — Вывод
print('#' * 5, 'Extracted Sentences', '#' * 5) for d in df[:8]: print(d)
Слова те же, что и в шаге 1:
Спасибо за уделенное время. Если вы найдете эту тему полезной, пожалуйста, похлопайте и мотивируйте меня, подписавшись на меня.
Берегите себя ✌