Я настроил массовое извлечение Import.io, которое отлично работает, скажем, с 50 URL-адресами. Он буквально проносится через все из них за считанные секунды. Однако, когда я пытаюсь извлечь 40 000 URL-адресов, экстрактор запускается очень быстро для первой тысячи или около того, а затем постепенно продолжает работать медленнее с каждым дополнительным URL-адресом. К 5000 это буквально занимает около 4-5 секунд на URL.
Одно из решений, которое кажется работающим, — это разбивать их на куски по 1000 URL-адресов за раз и выполнять отдельное массовое извлечение для каждого. Однако это занимает очень много времени и требует объединения всех данных в конце.
Кто-нибудь сталкивался с этим, и если да, то есть ли у них более элегантное решение?
Спасибо, Майк