Как загрузить все перечисленные файлы с веб-страницы, где URL-адреса не имеют определенных имен файлов

Я хочу загрузить все наборы данных с этой страницы: http://www.data.gov/catalog/geodata/category/0/agency/0/filter/sort/page/1/count/20

Я пробовал wget, но вот проблема:

В URL-адресе ссылки на файл нет имени файла, и они могут иметь разные типы файлов.

Вот пример URL-адреса файла: http://www.data.gov/download/CECA1FB2-EA36-537B-8C68-298CCA449697/geodata

Шаблон таков, что все URL-адреса начинаются с http://www.data.gov/download/ и заканчиваются на /geodata.

Как лучше всего очистить этот сайт? Должен ли я использовать wget, cURL, скрипт PHP или что-то еще?


person kefiren    schedule 28.10.2011    source источник
comment
Я все еще задаюсь этим вопросом, поэтому любые комментарии или предложения высоко ценятся!   -  person kefiren    schedule 06.11.2011


Ответы (1)


Почему в этом случае не работает wget? Основываясь на ваших примерах URL-адресов, рекурсивный поиск wget поместит каждый загруженный файл в файл «геоданные» в своем собственном каталоге. Оказавшись на вашем локальном диске, вы можете делать с данными как хотите, в том числе переименовывать и перемещать файлы в более удобную форму (например, с помощью mmv или команды find -exec).

person Dan    schedule 09.11.2011