Запуск Scrapy на Dokku с использованием сервера Digital Ocean

Не знаю, как это описать, но я запускаю паука Scrapy на сервере Digital Ocean (сервер за 5 долларов), проект Scrapy развернут как приложение Dokku.

Тем не менее, он работает очень медленно по сравнению со скоростью на моем локальном компьютере и на динамометрическом стенде бесплатного уровня Heroku. На Dokku он сканирует со скоростью 30 страниц в минуту, тогда как локально и на Heroku скорость составляет 200+ страниц в минуту.

Я не знаю, как отлаживать, анализировать или с чего начать, чтобы решить проблему. Любая помощь, подсказки или советы о том, как решить эту проблему?


person Quang Nguyen    schedule 20.06.2016    source источник
comment
Вы можете попробовать включить AutoThrottle. Ваш паук был убит из-за нехватки памяти?   -  person Harrison    schedule 21.06.2016
comment
Я уже включил AutoThrottle. Он не убивается из-за нехватки памяти (я использую 1 ГБ памяти подкачки). Это вполне может быть проблема с памятью, сервер DO также запускает postgresql и elasticsearch, в то время как эти службы запускаются отдельно на Heroku. Я проверю это :) Спасибо за предложение.   -  person Quang Nguyen    schedule 21.06.2016
comment
Я попробовал серверы DO за 10 и 20 долларов, но они дали тот же результат. Результаты были такими же. Наконец-то это заработало при запуске на AWS или Linode. Не знаю почему, но я думаю, что я должен переключиться.   -  person Quang Nguyen    schedule 21.06.2016


Ответы (1)


Я «исправил» эту проблему, не используя сервер Digital Ocean. Веб-сайт, который я пытаюсь просканировать, craigslist.org, просто плохо реагировал на сервер DO. Ответ на запрос занимает много времени. Другие веб-сайты, такие как Google или Amazon, прекрасно работают с DO.

Мой парсер отлично работает на Craigslist при использовании VPS от другого провайдера.

person Quang Nguyen    schedule 22.06.2016