Очистить веб-ссылки

Python — это язык программирования общего назначения, который, похоже, находится на подъеме благодаря аналитике данных, науке и машинному обучению. Он имеет много возможностей для своих многочисленных библиотек/пакетов. При выполнении задач по аналитике данных / науке будет время, когда вы захотите использовать данные из Интернета. Эти данные могут быть доступны только на веб-странице, поэтому в подобных случаях вам потребуется использовать специальную технику, называемую парсингом веб-страниц, для сбора данных для проведения анализа. Одной из очень полезных возможностей Python является очистка данных. Приступим к парсингу с помощью Python3 и библиотеки BeautifulSoup!

Шаг 0: Установите Python версии 3

Прежде чем мы начнем, у вас должен быть установлен Python версии 3. Вы можете скачать это здесь".

Шаг 1: Выберите веб-сайт, который вы хотите парсить.

Я выбрал свой БЛОГ everythingcomputerscience.com/test/simpleHTML.html. Нам, очевидно, нужен веб-сайт, на котором есть ссылки, которые мы хотим очистить.

Шаг 2: Установите пакеты Python (request и beautifulSoup)

Нам нужен запрос и пакет BeautifulSoup, чтобы помочь сделать парсинг. Нам нужен пакет request для отправки запросов HTTP/1.1 и пакет BeautifulSoup для извлечения данных из файлов HTML. Используйте следующие команды:

pip install beautifulSoup4
запросы на установку pip

Шаг 3: Создайте файл Python.

Я назвал свой файл Python «scrape.py». Это можно сделать,
i) открыв Блокнот или любой другой текстовый редактор на вашем компьютере
ii) нажмите «Файл» → «Сохранить как»
.

iii) Сохранить как тип Все файлы (*.*)
ПРИМЕЧАНИЕ. Запомните, где вы сохранили этот файл

Шаг 4: Создайте код парсинга

В файл Python (scrape.py) мы вставим код, выполняющий очистку.

i) импортировать два пакета (BeautifulSoup и request)

из bs4 import BeautifulSoup
импортировать запросы

ii) Запрашивать у пользователя входной URL-адрес для извлечения данных

url = input("Введите сайт для извлечения ссылок из: ")

iii) Запросить данные с сервера по протоколу GET

г = запросы.get(url)

iv) Преобразование необработанного ответа в текст для получения данных

данные = р.текст

v) Используйте Python HTML Parser для извлечения данных из HTML-файла

суп = BeautifulSoup(данные, ‘html-парсер’)

vi) Создайте пустой список для хранения ссылок

список = ''

vii) Получите все ссылки из тегов ‹a› с атрибутом href и сохраните их в переменной списка

для ссылки в супе.find_all('a'):
list += link.get('href') + '\n'

viii) Распечатать список А.К.А. ссылки

распечатать (список)

ПРИМЕЧАНИЕ. Не забудьте сохранить этот файл.

Вы можете получить актуальный код с моего GitHub.



Шаг 5: Запустите программу

Теперь, когда мы выполнили все вышеперечисленные шаги, пришло время запустить код!

  1. Откройте командную строку на вашем компьютере с Windows или терминал на вашем Mac или ОС Linux.

2. Перейдите туда, где вы сохранили свой скрипт Python «scrape.py». Не забудьте поставить «python» перед ним. Например

C:\Users\randerson112358>python C:\Users\randerson112358\Desktop\scrape.py

3. Если все правильно, вам будет предложено ввести URL-адрес веб-сайта.

Введите веб-сайт для извлечения ссылок:
http://everythingcomputerscience.com/test/simpleHTML.html

4. Результаты

http://www.yahoo.com
http://www.yahoo.com

Шаг 6: Вот видео, показывающее шаги с 0 по 5

Спасибо за чтение этой статьи, я надеюсь, что она будет полезна для всех вас! Если вы хотите больше видео по информатике и анализу алгоритмов, пожалуйста, посетите и подпишитесь на мои каналы YouTube (randerson112358 & compsci112358)

Ознакомьтесь со следующим контентом / видео по информатике, анализу алгоритмов, программированию и логике:

Канал YouTube:
randerson112358:https://www.youtube.com/channel/UCaV_0qp2NZd319K4_K8Z5SQ

compsci112358:
https://www.youtube.com/channel/UCbmb5IoBtHZTpYZCDBOC1CA

Веб-сайт:
http://everythingcomputerscience.com/

Видеоуроки по повторяющимся отношениям:
https://www.udemy.com/recurrence-relation-made-easy/

Видеоучебник по алгоритмическому анализу:
https://www.udemy.com/algorithm-analysis/

Твиттер:
https://twitter.com/CsEverything

"YouTube канал:"

Веб-сайт по информатике:

Видео Udemy о рекуррентном отношении: