Очистить веб-ссылки
Python — это язык программирования общего назначения, который, похоже, находится на подъеме благодаря аналитике данных, науке и машинному обучению. Он имеет много возможностей для своих многочисленных библиотек/пакетов. При выполнении задач по аналитике данных / науке будет время, когда вы захотите использовать данные из Интернета. Эти данные могут быть доступны только на веб-странице, поэтому в подобных случаях вам потребуется использовать специальную технику, называемую парсингом веб-страниц, для сбора данных для проведения анализа. Одной из очень полезных возможностей Python является очистка данных. Приступим к парсингу с помощью Python3 и библиотеки BeautifulSoup!
Шаг 0: Установите Python версии 3
Прежде чем мы начнем, у вас должен быть установлен Python версии 3. Вы можете скачать это здесь".
Шаг 1: Выберите веб-сайт, который вы хотите парсить.
Я выбрал свой БЛОГ everythingcomputerscience.com/test/simpleHTML.html. Нам, очевидно, нужен веб-сайт, на котором есть ссылки, которые мы хотим очистить.
Шаг 2: Установите пакеты Python (request и beautifulSoup)
Нам нужен запрос и пакет BeautifulSoup, чтобы помочь сделать парсинг. Нам нужен пакет request для отправки запросов HTTP/1.1 и пакет BeautifulSoup для извлечения данных из файлов HTML. Используйте следующие команды:
pip install beautifulSoup4
запросы на установку pip
Шаг 3: Создайте файл Python.
Я назвал свой файл Python «scrape.py». Это можно сделать,
i) открыв Блокнот или любой другой текстовый редактор на вашем компьютере
ii) нажмите «Файл» → «Сохранить как».
iii) Сохранить как тип Все файлы (*.*)
ПРИМЕЧАНИЕ. Запомните, где вы сохранили этот файл
Шаг 4: Создайте код парсинга
В файл Python (scrape.py) мы вставим код, выполняющий очистку.
i) импортировать два пакета (BeautifulSoup и request)
из bs4 import BeautifulSoup
импортировать запросы
ii) Запрашивать у пользователя входной URL-адрес для извлечения данных
url = input("Введите сайт для извлечения ссылок из: ")
iii) Запросить данные с сервера по протоколу GET
г = запросы.get(url)
iv) Преобразование необработанного ответа в текст для получения данных
данные = р.текст
v) Используйте Python HTML Parser для извлечения данных из HTML-файла
суп = BeautifulSoup(данные, ‘html-парсер’)
vi) Создайте пустой список для хранения ссылок
список = ''
vii) Получите все ссылки из тегов ‹a› с атрибутом href и сохраните их в переменной списка
для ссылки в супе.find_all('a'):
list += link.get('href') + '\n'
viii) Распечатать список А.К.А. ссылки
распечатать (список)
ПРИМЕЧАНИЕ. Не забудьте сохранить этот файл.
Вы можете получить актуальный код с моего GitHub.
Шаг 5: Запустите программу
Теперь, когда мы выполнили все вышеперечисленные шаги, пришло время запустить код!
- Откройте командную строку на вашем компьютере с Windows или терминал на вашем Mac или ОС Linux.
2. Перейдите туда, где вы сохранили свой скрипт Python «scrape.py». Не забудьте поставить «python» перед ним. Например
C:\Users\randerson112358>python C:\Users\randerson112358\Desktop\scrape.py
3. Если все правильно, вам будет предложено ввести URL-адрес веб-сайта.
Введите веб-сайт для извлечения ссылок:
http://everythingcomputerscience.com/test/simpleHTML.html
4. Результаты
Шаг 6: Вот видео, показывающее шаги с 0 по 5
Спасибо за чтение этой статьи, я надеюсь, что она будет полезна для всех вас! Если вы хотите больше видео по информатике и анализу алгоритмов, пожалуйста, посетите и подпишитесь на мои каналы YouTube (randerson112358 & compsci112358)
Ознакомьтесь со следующим контентом / видео по информатике, анализу алгоритмов, программированию и логике:
Канал YouTube:
randerson112358:https://www.youtube.com/channel/UCaV_0qp2NZd319K4_K8Z5SQ
compsci112358:
https://www.youtube.com/channel/UCbmb5IoBtHZTpYZCDBOC1CA
Веб-сайт:
http://everythingcomputerscience.com/
Видеоуроки по повторяющимся отношениям:
https://www.udemy.com/recurrence-relation-made-easy/
Видеоучебник по алгоритмическому анализу:
https://www.udemy.com/algorithm-analysis/
Твиттер:
https://twitter.com/CsEverything