Итак, я знаю, что могу использовать:
wget -r <website> > <file>
чтобы получить веб-страницу и сохранить ее. Мой вопрос в том, как бы я использовал cron и wget, чтобы получить веб-страницу на почасовой или даже минутной основе, а затем сохранить их в папку, заархивировать и заархивировать, а затем продолжать добавлять к ней для проверки позже .
Я знаю, что могу сделать это вручную, моя цель состоит в том, чтобы в основном загружать его каждые 10-20 минут в течение примерно 4 часов (не имеет значения, если это длится дольше) и добавлять все в хороший каталог, а затем заархивировать указанный каталог для сохранения пространство и проверить их позже в тот же день.
-r
подразумевает, что вы хотите сохранить более одной страницы — это то, что вам нужно или нет? Если это так, вам следует говорить не веб-страница, а веб-страницаs, просто для ясности. Я возьму одну страницу. Итак, вы загружаете страницу, скажем, в 10:00, 11:00 и 12:00 — что бы вы хотели иметь — набор файлов (wp-10am.htm
,wp-11am.htm
,wp-12pm.htm
) или что-то еще? - person icyrock.com   schedule 18.11.2010