Мне нужно остановить сканер import.io и извлечь данные, которые он до сих пор извлек. Как это сделать без потери данных?

Я использую функцию пакетных запросов import.io для сканирования 25 000 URL-адресов. Он начался быстро, но начал сильно замедляться примерно на 10 км. Прошло более 6 часов, и это на 19K. К сожалению, у меня нет времени ждать, пока это будет сделано, поэтому мне нужно обойтись теми данными, которые были собраны до сих пор.

Однако я не вижу кнопки остановки или чего-то еще, и я боюсь потерять данные, если буду слишком много с ними возиться.

Любая помощь приветствуется, спасибо!


person user3073431    schedule 28.10.2015    source источник
comment
Добро пожаловать в СО! Откуда нам знать, если мы даже не знаем, как работает краулер? Мы не видели ни кода, ни того, как вы его используете.   -  person cfi    schedule 29.10.2015
comment
Ой, извините. Я на самом деле использую их экстрактор. Надеюсь, эта картинка поможет. Извините за беспокойство:/ screencast.com/t/PghYH5n47   -  person user3073431    schedule 29.10.2015
comment
@cfi забыл отметить тебя   -  person user3073431    schedule 29.10.2015


Ответы (1)


Программное обеспечение для извлечения ускоряется и замедляется в зависимости от того, насколько быстро веб-сайт обслуживает страницы и множества других факторов, чтобы обеспечить наилучшие шансы на получение всех данных; мы делаем это таким образом, поскольку считаем, что качество данных и охват имеют первостепенное значение, поэтому мы не верим в получение быстрого, но низкого качества набора данных. В конце концов, вы, вероятно, слышали о «мусоре в мусоре» раньше :)

В будущем вы можете связаться с командой разработчиков/поддержки по адресу http://support.import.io/ для помогите с извлечением данных.

Удачи

person CavemanDan    schedule 29.10.2015