Вопросы по теме 'scrapy-spider'

Отдельный выходной файл для каждого URL-адреса, указанного в списке start_urls паука в scrapy.
Я хочу создать отдельный выходной файл для каждого URL-адреса, который я установил в start_urls паука, или каким-то образом хочу разделить выходные файлы на начальный URL-адрес. Ниже приведены start_urls моего паука. start_urls =...
3176 просмотров
schedule 14.07.2023

Ошибка при запуске сканера scrapy
import scrapy class ExampleSpider(scrapy.Spider): name = "example" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",...
404 просмотров
schedule 27.07.2022

Извлечение изображений в Scrapy
Я прочитал несколько других ответов здесь, но мне не хватает чего-то фундаментального. Я пытаюсь извлечь изображения с веб-сайта с помощью CrawlSpider. settings.py BOT_NAME = 'healthycomm' SPIDER_MODULES = ['healthycomm.spiders']...
4187 просмотров
schedule 03.11.2022

scrapy: если FormRequest имеет jsessionid
Я практикую FormRequest и столкнулся с проблемой Во-первых, я просматриваю ссылку в def(parse) и получаю json обратно в def(parse1). Затем я получаю actId в json, который могу выдать запрос сканировать другие ссылки, но возникает такая ошибка:...
711 просмотров
schedule 03.04.2023

Как отправить файл ScrapyFileLogObserver на мою электронную почту
Я хочу отправить электронное письмо самому себе, когда паук закроется Я смотрю этот источник и я могу получить почту. Но я обнаружил, что он напишет failure.getTraceback() , когда паук ошибается часть исходного кода: def spider_error(self,...
284 просмотров
schedule 31.10.2022

Beautiful Soup перебирает HTML-тег
У меня есть следующий код в html <section> <section> <h2>Title1</h2> <p>Text1</p> <p>Text1</p> </section> <section>...
9665 просмотров

Scrapy не сканирует все start_url
У меня есть список из ~ 2211 начальных URL-адресов и некоторых из них, но не всех. Когда я устанавливаю start_url как один URL-адрес, он сканирует URL-адрес, если у меня есть URL-адрес в большом списке, scrapy не сканирует. Установлено ли...
716 просмотров
schedule 05.01.2023

Как использовать регулярное выражение в визуальном скраппинге Portia?
Я могу аннотировать веб-страницы с помощью веб-краулера Portia, мой вопрос заключается в том, как использовать регулярное выражение при извлечении данных. Например, Я извлек данные о местоположении со страницы Вывод выглядит так,...
524 просмотров

Как извлечь данные с динамических веб-сайтов, таких как Flipkart, с помощью селена и Scrapy?
Поскольку Flipkart.com показывает только от 15 до 20 результатов на 1-й странице, а при прокрутке показывает больше результатов. Scrapy успешно извлекает результаты 1-й страницы, но не следующих страниц. Я пытался использовать Selenium для этого,...
3854 просмотров

Scrapy Получение определенного значения элемента на 2-й странице из URL-адреса, извлеченного из 1-й страницы
Я работаю со scrapy, и на одной веб-странице все работает как положено. Если я хочу взять ссылку, извлеченную со страницы 1, а затем очистить страницу 2 от ссылки, извлеченной со страницы 1, тогда у меня возникнут проблемы. У меня есть переменные...
1123 просмотров
schedule 15.06.2023

scrapy для общедоступного FTP-сайта с данными аутентификации, получая ошибку FTP
Я пишу паука для общедоступного FTP-сайта с аутентификацией Я дал логин и пароль для ftp. Scrapy не обработал этот запрос и выдал ошибку «ftp_user» # all import stmt class my_xml(BaseSpider): name = 'my_xml' def...
576 просмотров
schedule 03.10.2022

Сбой Twisted Python — проблемы со Scrapy
Я пытаюсь использовать SCRAPY для очистки результатов поиска этого веб-сайта для любого поискового запроса - http://www.bewakoof.com . Веб-сайт использует AJAX (в форме XHR) для отображения результатов поиска. Мне удалось отследить XHR, и вы...
3267 просмотров

Запустить оболочку scrapy с помощью веб-страницы
Я новичок в scrapy и python. Я написал паука, который берет start_urls из командной строки и начинает парсить. До этого все нормально. Теперь я хочу отправить start_urls с веб-страницы (созданной с использованием Flask). После нажатия кнопки она...
210 просмотров

Попытка заполнить форму с помощью Scrapy FormRequest, неожиданные результаты
Я пытаюсь заполнить форму на www.wetseal.com/Stores, которая позволяет выбрать штат для отображения магазинов. <form action="http://www.wetseal.com/Stores?dwcont=C73689620" method="post" id="dwfrm_storelocator_state">...
683 просмотров
schedule 04.03.2023

как получить контент при веб-сканировании
Привет! Я пытаюсь реализовать этот псевдокод для алгоритма паука для изучения Интернета. Нужна идея для моего следующего шага псевдокода: " использовать SpiderLeg для извлечения контента ", у меня есть метод в другом классе SpiderLeg , у...
1083 просмотров
schedule 09.02.2023

Scrapy- Как извлечь все сообщения блога из категории?
Я использую scrapy для извлечения всех сообщений из моего блога. Проблема в том, что я не могу понять, как создать правило, которое читает все сообщения в любой заданной категории блога? пример: в моем блоге в категории "Настройка среды" 17...
2450 просмотров
schedule 01.04.2023

Как использовать промежуточное ПО Downloader в Scrapy
Я использую scrapy для очистки некоторых веб-страниц. Я написал свой собственный класс ProxyMiddleware , в котором я реализовал свое требование в методе process_request(self,request,spider) . Вот мой код (скопировано): class...
5982 просмотров
schedule 12.06.2023

Бот Scrapy и оболочка возвращают разные результаты с одним и тем же запросом xpath. Почему?
Когда я выполняю один и тот же запрос xpath в бот-боте и в оболочке scrapy, я получаю разные результаты. Примечание. Я просто пытаюсь изучить scrapy и поэтому модифицирую часть кода учебника. Пожалуйста, иди со мной медленно. Запрос:...
476 просмотров
schedule 25.12.2022

дерево категорий краудсорсинга
Я новичок в python, поэтому, пожалуйста, наберитесь терпения. Мне нужно просканировать веб-сайт (интернет-магазин), чтобы получить дерево категорий, что подразумевает навигацию по дереву страниц, а также сохранение родителей текущего под-под-...
1444 просмотров
schedule 16.06.2022

Scrapy после входа в систему анализирует список URL-адресов
Я не очень хорошо знаком с python, поэтому, пожалуйста, наберитесь терпения. У меня есть сканер scrapy, который работает так, как должен, но теперь мне нужно сделать новый, но на этот раз он должен сканировать сеанс, вошедший в систему. Итак, мой...
1034 просмотров
schedule 21.04.2024