Массовое извлечение Import.io замедляется, когда в списке содержится больше URL-адресов

Я настроил массовое извлечение Import.io, которое отлично работает, скажем, с 50 URL-адресами. Он буквально проносится через все из них за считанные секунды. Однако, когда я пытаюсь извлечь 40 000 URL-адресов, экстрактор запускается очень быстро для первой тысячи или около того, а затем постепенно продолжает работать медленнее с каждым дополнительным URL-адресом. К 5000 это буквально занимает около 4-5 секунд на URL.

Одно из решений, которое кажется работающим, — это разбивать их на куски по 1000 URL-адресов за раз и выполнять отдельное массовое извлечение для каждого. Однако это занимает очень много времени и требует объединения всех данных в конце.

Кто-нибудь сталкивался с этим, и если да, то есть ли у них более элегантное решение?

Спасибо, Майк


person Mike L    schedule 14.07.2015    source источник
comment
Вы знаете какие-нибудь языки программирования?   -  person CavemanDan    schedule 15.07.2015


Ответы (2)


Чуть менее элегантным решением было бы создание поискового робота. И прежде чем запустить его, вставьте 10 000 URL-адресов в поле «где начать сканирование».

В дополнительных параметрах установите для глубины сканирования нулевое значение, таким образом вы получите только те страницы, которые указали в поле ввода, с которого начать сканирование.

Это должно делать свое дело. Кроме того, у Cawler есть множество других опций, таких как ожидание между страницами, одновременные страницы и т. д.

person CavemanDan    schedule 15.07.2015

Майк, не мог бы ты попробовать еще раз? Мы поработали над массовой выгрузкой, теперь она должна быть немного медленнее в начале, но более постоянной.

Возможно, 40 тысяч все еще слишком много, и в этом случае вы можете попробовать разделить, но я пробежал 5 тысяч+ за один прогон.

Дайте мне знать, как это происходит!

person Francesco Bovoli    schedule 25.08.2015