Публикации по теме 'web-scraping'


Как очистить данные IMDB с помощью Web Scrapping в Python
Прежде чем приступить к кодированию, нам нужно убедиться, что в нашей системе есть следующие библиотеки — если они не установлены — Установка библиотек запросы на установку pip pip install beautifulsoup4 pip install openpyxl Импорт библиотек Мы использовали библиотеку requests для получения доступа к URL-адресу, BeautifulSoup для перехода на веб-сайт и извлечения данных и openpyxl для импорта сгенерированных данных в наша локальная машина. import requests from bs4..

Веб-скраппинг Booking.com с использованием Python
Booking.com — это крупнейший в мире сайт бронирования отелей, на котором размещено более 27 миллионов объявлений в 130 000 направлений в 227 странах мира. Обширный кладезь общедоступных данных об отелях и курортах делает Booking.com ценным ресурсом для майнеров данных и соответствующих OTA, позволяющих наблюдать за ценовыми стратегиями своих конкурентов. В этом руководстве мы научимся собирать результаты поиска отелей с Booking.com с помощью Python и BeautifulSoup. Во-первых,..

Парсинг нескольких страниц веб-сайта электронной коммерции с большим количеством Javascript с помощью Selenium и Beautifulsoup
Введение Веб-скрапинг — это мощный метод сбора данных с веб-сайтов. При работе с современными веб-сайтами электронной коммерции, которые сильно зависят от Javascript и React, парсинг может стать сложной задачей. В этой статье мы покажем, как использовать Selenium и BeautifulSoup для очистки нескольких страниц списков продуктов с веб-сайта электронной коммерции с большим количеством Javascript. Настройка селена Selenium — это популярная библиотека веб-тестирования, которая может..

Объяснение веб-скрейпинга за 4 минуты
Веб-скрапинг — это извлечение данных с веб-сайтов. Обычно это делается, позволяя компьютерам запускать сценарии, которые загружают веб-сайт и ищут необходимые данные, которые затем можно сохранить. В этой статье мы углубимся в детали, чтобы объяснить: Для чего используется веб-скрапинг? Как работает парсинг в Интернете? В чем трудности парсинга веб-страниц? Для чего используется веб-скрапинг? Веб-сайты используются для обмена информацией в Интернете. Новостные сайты делятся…

#Day24 — Как очищать таблицы и другие варианты использования Beautiful Soup, часть 2
Во вчерашней статье мы говорили о том, как начать работу с Beautiful Soup. Мы обсудили следующие функции красиво () найти() найти все() Выбрать() Сегодня мы попробуем парсить данные в таблице сайта worldometer . Таблица имеет идентификатор «main_table_countries_today». Мы будем использовать идентификатор для получения элемента таблицы. Давайте поговорим о структуре таблицы. <table> <thead> </thead> <tr> <td>..

Как очистить Amazon.com, чтобы узнать цену и детали ноутбука с помощью JavaScript Cheerio?
Цель В этой статье мы будем искать и получать информацию о ноутбуке на веб-сайте Amazon через JS Cheerio и Axios и экспортировать данные в файл csv, чтобы мы могли более эффективно анализировать структурированные данные. В этом случае мы не только получим название и цену товара, но и углубимся в ссылку каждого товара, чтобы получить такие детали, как марка, серия, цвет и т. д. Инструмент Узел JS Зависимости узла: cheerio/axios { "name": "js",..

Проект данных: авиакатастрофы — Часть 1
Алгоритм парсинга веб-страниц Привет, как дела? Это моя первая публикация на Medium и первая из серии из трех статей, где я продемонстрирую весь процесс проекта данных со следующими шагами: – Парсинг данных – Очистка, обработка и анализ данных – Создание диаграмм и интерактивной панели инструментов Проект занимается регистрацией авиационных происшествий по всему миру, произошедших в период с 1919 по 2020 год. Данные доступны на сайте Aviation Safety Network от Flight Safety..