Публикации по теме scrapy-spider

Вопросы по теме 'scrapy-spider'

Отдельный выходной файл для каждого URL-адреса, указанного в списке start_urls паука в scrapy.

Я хочу создать отдельный выходной файл для каждого URL-адреса, который я установил в start_urls паука, или каким-то образом хочу разделить выходные файлы на начальный URL-адрес. Ниже приведены start_urls моего паука. start_urls =...

3176 просмотров

14.07.2023

Ошибка при запуске сканера scrapy

import scrapy class ExampleSpider(scrapy.Spider): name = "example" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",...

404 просмотров

python web-scraping scrapy scrapy-spider

27.07.2022

Извлечение изображений в Scrapy

Я прочитал несколько других ответов здесь, но мне не хватает чего-то фундаментального. Я пытаюсь извлечь изображения с веб-сайта с помощью CrawlSpider. settings.py BOT_NAME = 'healthycomm' SPIDER_MODULES = ['healthycomm.spiders']...

4187 просмотров

python scrapy scrapy-spider

03.11.2022

scrapy: если FormRequest имеет jsessionid

Я практикую FormRequest и столкнулся с проблемой Во-первых, я просматриваю ссылку в def(parse) и получаю json обратно в def(parse1). Затем я получаю actId в json, который могу выдать запрос сканировать другие ссылки, но возникает такая ошибка:...

711 просмотров

python json scrapy-spider

03.04.2023

Как отправить файл ScrapyFileLogObserver на мою электронную почту

Я хочу отправить электронное письмо самому себе, когда паук закроется Я смотрю этот источник и я могу получить почту. Но я обнаружил, что он напишет failure.getTraceback() , когда паук ошибается часть исходного кода: def spider_error(self,...

284 просмотров

python scrapy scrapy-spider

31.10.2022

Beautiful Soup перебирает HTML-тег

У меня есть следующий код в html <section> <section> <h2>Title1</h2> <p>Text1</p> <p>Text1</p> </section> <section>...

9665 просмотров

python html beautifulsoup django-views scrapy-spider

02.01.2023

Scrapy не сканирует все start_url

У меня есть список из ~ 2211 начальных URL-адресов и некоторых из них, но не всех. Когда я устанавливаю start_url как один URL-адрес, он сканирует URL-адрес, если у меня есть URL-адрес в большом списке, scrapy не сканирует. Установлено ли...

716 просмотров

python web-scraping scrapy scrapy-spider

05.01.2023

Как использовать регулярное выражение в визуальном скраппинге Portia?

Я могу аннотировать веб-страницы с помощью веб-краулера Portia, мой вопрос заключается в том, как использовать регулярное выражение при извлечении данных. Например, Я извлек данные о местоположении со страницы Вывод выглядит так,...

524 просмотров

python-2.7 web-crawler scrapy-spider portia

16.02.2023

Как извлечь данные с динамических веб-сайтов, таких как Flipkart, с помощью селена и Scrapy?

Поскольку Flipkart.com показывает только от 15 до 20 результатов на 1-й странице, а при прокрутке показывает больше результатов. Scrapy успешно извлекает результаты 1-й страницы, но не следующих страниц. Я пытался использовать Selenium для этого,...

3854 просмотров

python selenium selenium-webdriver scrapy scrapy-spider

09.02.2023

Scrapy Получение определенного значения элемента на 2-й странице из URL-адреса, извлеченного из 1-й страницы

Я работаю со scrapy, и на одной веб-странице все работает как положено. Если я хочу взять ссылку, извлеченную со страницы 1, а затем очистить страницу 2 от ссылки, извлеченной со страницы 1, тогда у меня возникнут проблемы. У меня есть переменные...

1123 просмотров

python scrapy scrapy-spider

15.06.2023

scrapy для общедоступного FTP-сайта с данными аутентификации, получая ошибку FTP

Я пишу паука для общедоступного FTP-сайта с аутентификацией Я дал логин и пароль для ftp. Scrapy не обработал этот запрос и выдал ошибку «ftp_user» # all import stmt class my_xml(BaseSpider): name = 'my_xml' def...

576 просмотров

python python-2.7 ftp scrapy scrapy-spider

03.10.2022

Сбой Twisted Python — проблемы со Scrapy

Я пытаюсь использовать SCRAPY для очистки результатов поиска этого веб-сайта для любого поискового запроса - http://www.bewakoof.com . Веб-сайт использует AJAX (в форме XHR) для отображения результатов поиска. Мне удалось отследить XHR, и вы...

3267 просмотров

python web-scraping scrapy twisted scrapy-spider

12.05.2023

Запустить оболочку scrapy с помощью веб-страницы

Я новичок в scrapy и python. Я написал паука, который берет start_urls из командной строки и начинает парсить. До этого все нормально. Теперь я хочу отправить start_urls с веб-страницы (созданной с использованием Flask). После нажатия кнопки она...

210 просмотров

flask web-scraping web-crawler scrapy scrapy-spider

05.05.2023

Попытка заполнить форму с помощью Scrapy FormRequest, неожиданные результаты

Я пытаюсь заполнить форму на www.wetseal.com/Stores, которая позволяет выбрать штат для отображения магазинов. <form action="http://www.wetseal.com/Stores?dwcont=C73689620" method="post" id="dwfrm_storelocator_state">...

683 просмотров

python-2.7 scrapy scrapy-spider

04.03.2023

как получить контент при веб-сканировании

Привет! Я пытаюсь реализовать этот псевдокод для алгоритма паука для изучения Интернета. Нужна идея для моего следующего шага псевдокода: " использовать SpiderLeg для извлечения контента ", у меня есть метод в другом классе SpiderLeg , у...

1083 просмотров

java web-crawler algorithm scrapy-spider

09.02.2023

Scrapy- Как извлечь все сообщения блога из категории?

Я использую scrapy для извлечения всех сообщений из моего блога. Проблема в том, что я не могу понять, как создать правило, которое читает все сообщения в любой заданной категории блога? пример: в моем блоге в категории "Настройка среды" 17...

2450 просмотров

python wordpress regex scrapy scrapy-spider

01.04.2023

Как использовать промежуточное ПО Downloader в Scrapy

Я использую scrapy для очистки некоторых веб-страниц. Я написал свой собственный класс ProxyMiddleware , в котором я реализовал свое требование в методе process_request(self,request,spider) . Вот мой код (скопировано): class...

5982 просмотров

python python-2.7 scrapy scrapy-spider

12.06.2023

Бот Scrapy и оболочка возвращают разные результаты с одним и тем же запросом xpath. Почему?

Когда я выполняю один и тот же запрос xpath в бот-боте и в оболочке scrapy, я получаю разные результаты. Примечание. Я просто пытаюсь изучить scrapy и поэтому модифицирую часть кода учебника. Пожалуйста, иди со мной медленно. Запрос:...

476 просмотров

xpath scrapy scrapy-shell scrapy-spider

25.12.2022

дерево категорий краудсорсинга

Я новичок в python, поэтому, пожалуйста, наберитесь терпения. Мне нужно просканировать веб-сайт (интернет-магазин), чтобы получить дерево категорий, что подразумевает навигацию по дереву страниц, а также сохранение родителей текущего под-под-...

1444 просмотров

python scrapy scrapy-spider

16.06.2022

Scrapy после входа в систему анализирует список URL-адресов

Я не очень хорошо знаком с python, поэтому, пожалуйста, наберитесь терпения. У меня есть сканер scrapy, который работает так, как должен, но теперь мне нужно сделать новый, но на этот раз он должен сканировать сеанс, вошедший в систему. Итак, мой...

1034 просмотров

python scrapy scrapy-spider

21.04.2024