Как скачать сайт целиком в Debian используя только командную строку
2013.01.07
Иногда одной веб-страницы мало. Надо скачать все остальные объекты,
доступные из этой веб-страницы. Для этого понадобится один только
wget
.
Вот заклинание, которое нужно прочитать (предполагается, что мы находимся в каталоге, куда нужно скачать сайт):
wget -m -k -np -w 1 --random-wait -U "Mozilla" -e robots=off <URL>
Значения параметров:
-m
Скачать всё, начиная с заданного URL (собственно то, что нужно).-k
Исправлять ссылки в скачанных HTML документах, чтобы ссылались не на Сеть, а друг на друга.-np
Качать только то, что ниже заданного URL или на его уровне (в частности, не качать ничего с других доменов).-w 1 --random-wait
Прикидываться обычным пользователем, делая паузы случайной длины минимум в 1 секунду между каждым скачиваемым файлом.-U "Mozilla"
Прикидываться Фаерфоксом (не очень настойчиво: никакой фаерфокс не использует такой User-Agent).-e robots=off
Вообще-то, не используйте этот параметр. Он заставляетwget
игнорировать правила, описанные вrobots.txt
.
За инфу спасибо HydTechBlog.