Публикации по теме 'scraping'


Очистить информацию о фильмах IMDB с помощью OMDB API
Здравствуйте, надеюсь, у вас отличный день. Никогда не поздно узнавать что-то новое, поэтому в последнее время я изучал концепции Web Scrapping и API, поэтому я экспериментировал с этими вещами и создал небольшой скрипт Scraping с использованием OMDB API :bowtie:, который позволяет пользователю правильно получать информацию о фильме. из консоли. Итак, без лишних хлопот, давайте сразу приступим к коду. Во-первых, мы импортируем модули, необходимые для выполнения задачи очистки...

Обход дерева DOM
Сегодня я поигрался с несколькими вещами и решил поделиться очень простой функцией обхода DOM. Как вы, наверное, уже знаете, узлы DOM бывают разных типов, и полный список можно найти на странице w3schools. Мой вариант использования заключался в извлечении комментариев веб-страницы, поэтому я рассмотрю только этот конкретный случай, но код можно настроить и для других типов узлов. При поиске контента в дереве DOM есть 2 варианта: разобрать HTML страницы, найти целевые строки и элементы..

Создание парсера с помощью Selenium и BeautifulSoup4. Часть 1/2
Как автоматизировать раздражающие задачи с помощью Python 🤖 Недавно я начал интересоваться веб-скрапингом и подумал, что было бы интересно попробовать создать что-то, чтобы изучить некоторые полезные инструменты. Мне нужен был проект для старта, я подумал о проблеме, которая была у меня с первого года обучения в колледже: скачать материалы курсов. Проблема Мой университетский веб-сайт работает довольно хорошо, однако все материалы курсов организованы в длинные деревья папок над..

Декодирование HTML из текста
Часто при сканировании веб-страниц вы можете встретить в тексте значения HTML, которые необходимо перекодировать в их символьные формы. В то время как jQuery и другие языки имеют реализации для декодирования этих значений, собственный JavaScript - нет. Чтобы решить эту проблему, я начал с разбора HTML-кодов с помощью таблицы поиска, идущей слово за словом. Это был безопасный метод, который не требовал доступа к DOM веб-страницы. Хотя этот метод работал, он пришелся за счет увеличения..

Дом Traversal для удовольствия и прибыли
Пока я писал забавные слова в IDE, чтобы заставить компьютер делать то, что мне нужно, я баловался небольшим веб-скрейпингом за деньги. Я постоянно забывал, как нацеливаться на определенные части страницы, которые я хотел очистить и организовать в своей программе. Итак, ниже я собираю несколько заметок, чтобы поделиться с собой и вами в будущем :) Давайте начнем с небольшого шаблонного HTML, с которым мы можем работать. На странице должно быть только одно уникальное имя ID...

Как очистить несколько страниц с помощью ParseHub, нажав
В этом руководстве: Очистите несколько страниц с помощью ParseHub, щелкнув Read more guides at: http://alexhop.net/scraper/how-to-scrape-javascript-rendered-websites-with-python-selenium-headless-chrome/ Парсинг нескольких страниц никогда не был таким простым с ParseHub. В этом руководстве мы рассмотрим, как перемещаться по страницам с помощью кликов. Я рекомендую прочитать мое первое руководство [ Как очищать веб-страницы JavaScript с помощью ParseHub ], чтобы начать работу с..

Веб-скраппинг с помощью Puppeteer - несколько основных примеров
Что такое кукловод? Puppeteer - это библиотека узлов, которая поставляется с API для управления безголовым браузером Chromium или Chrome. Безголовый браузер - это, по сути, браузер без какого-либо пользовательского интерфейса, который используется для очистки или обхода веб-страниц. Вот некоторые из интересных вещей, которые вы можете делать с Puppeteer: Создавайте PDF-файлы и скриншоты веб-страниц. Автоматизируйте такие задачи, как заполнение формы и ввод с клавиатуры...