Что такое веб-скрапинг?

Веб-скрапинг, веб-сбор или извлечение веб-данных — это парсинг данных, используемый для извлечения данных с веб-сайтов. Программное обеспечение для очистки веб-страниц может напрямую обращаться к всемирной паутине с использованием протокола передачи гипертекста или веб-браузера. Хотя просмотр веб-страниц может выполняться пользователем программного обеспечения вручную, этот термин обычно относится к автоматизированным процессам, реализованным с использованием бота или поискового робота. Это форма копирования, при которой определенные данные собираются и копируются из Интернета, как правило, в центральную локальную базу данных или электронную таблицу для последующего поиска или анализа.

Пример: я хочу извлечь несколько предложений с веб-сайта

Шаг 1 — Определите, чего вы хотите

Шаг 2 — Перейти к исходному коду

Узнайте, в каких элементах находятся слова, которые вы ищете.

Шаг 3 — Импортируйте необходимые библиотеки

from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd

если у вас нет BeautifulSoup, pandas или urllib, установите их через pip или pip3:

pip install bs4
pip install urllib
pip install pandas

Шаг 2 — Скопируйте / вставьте URL-адрес страницы

url = 'https://sentence.yourdictionary.com/about'
page = urlopen(url)

Шаг 3 — Чтение и декодирование HTML

html_bytes = page.read()
html = html_bytes.decode('utf-8')

Шаг 4 — Разберите HTML с помощью BeautifulSoup и определите список

soup = BeautifulSoup(html, 'html.parser')
div = soup.find(class_="sentences-list")
data = list()

Шаг 5 — Создайте цикл по словам и извлеките их:

for span in div.find_all('span'):
    if len(span.text) > 10 and len(span.text) < 71:
    words = span.text.replace('\"', '')
    df.append(words)

Шаг 6 — Вывод

print('#' * 5, 'Extracted Sentences', '#' * 5)
for d in df[:8]:
    print(d)

Слова те же, что и в шаге 1:

Спасибо за уделенное время. Если вы найдете эту тему полезной, пожалуйста, похлопайте и мотивируйте меня, подписавшись на меня.

Берегите себя ✌