Можно ли настроить краулер Storm, чтобы он добавлял URL-адрес хоста в начало маршрута URL-адреса во время сканирования?

Я хочу сканировать такие URL-адреса, перед которыми нет хоста.

<div class=pro-info>
    <a href="/being-human-mens-solid-polo-t-shirt/p-202971521">
</div

Могу ли я добавить хост-часть URL-адреса перед этими URL-адресами, используя файл конфигурации в stormcrawler?


person Sankar Prasanth Gadhamsetti    schedule 21.11.2017    source источник


Ответы (1)


URL-адрес будет сделан абсолютным во время синтаксического анализа. Чтобы получить полные URL-адреса, не нужно делать ничего особенного.

person Julien Nioche    schedule 21.11.2017