Мне нужно остановить сканер import.io и извлечь данные, которые он до сих пор извлек. Как это сделать без потери данных?

Я использую функцию пакетных запросов import.io для сканирования 25 000 URL-адресов. Он начался быстро, но начал сильно замедляться примерно на 10 км. Прошло более 6 часов, и это на 19K. К сожалению, у меня нет времени ждать, пока это будет сделано, поэтому мне нужно обойтись теми данными, которые были собраны до сих пор.

Однако я не вижу кнопки остановки или чего-то еще, и я боюсь потерять данные, если буду слишком много с ними возиться.

Любая помощь приветствуется, спасибо!

web-crawler import.io

user3073431 28.10.2015 источник

comment

Добро пожаловать в СО! Откуда нам знать, если мы даже не знаем, как работает краулер? Мы не видели ни кода, ни того, как вы его используете. - cfi 29.10.2015

comment

Ой, извините. Я на самом деле использую их экстрактор. Надеюсь, эта картинка поможет. Извините за беспокойство:/ screencast.com/t/PghYH5n47 - user3073431 29.10.2015

comment

@cfi забыл отметить тебя - user3073431 29.10.2015

Ответы (1)

arrow_upward
0
arrow_downward

Программное обеспечение для извлечения ускоряется и замедляется в зависимости от того, насколько быстро веб-сайт обслуживает страницы и множества других факторов, чтобы обеспечить наилучшие шансы на получение всех данных; мы делаем это таким образом, поскольку считаем, что качество данных и охват имеют первостепенное значение, поэтому мы не верим в получение быстрого, но низкого качества набора данных. В конце концов, вы, вероятно, слышали о «мусоре в мусоре» раньше :)

В будущем вы можете связаться с командой разработчиков/поддержки по адресу http://support.import.io/ для помогите с извлечением данных.

Удачи

CavemanDan 29.10.2015

Мне нужно остановить сканер import.io и извлечь данные, которые он до сих пор извлек. Как это сделать без потери данных?

Ответы (1)

Вопросы по теме