Как скачать сайт целиком в Debian используя только командную строку
2013.01.07
Иногда одной веб-страницы мало. Надо скачать все остальные объекты,
доступные из этой веб-страницы. Для этого понадобится один только
wget.
Вот заклинание, которое нужно прочитать (предполагается, что мы находимся в каталоге, куда нужно скачать сайт):
wget -m -k -np -w 1 --random-wait -U "Mozilla" -e robots=off <URL>
Значения параметров:
- -mСкачать всё, начиная с заданного URL (собственно то, что нужно).
- -kИсправлять ссылки в скачанных HTML документах, чтобы ссылались не на Сеть, а друг на друга.
- -npКачать только то, что ниже заданного URL или на его уровне (в частности, не качать ничего с других доменов).
- -w 1 --random-waitПрикидываться обычным пользователем, делая паузы случайной длины минимум в 1 секунду между каждым скачиваемым файлом.
- -U "Mozilla"Прикидываться Фаерфоксом (не очень настойчиво: никакой фаерфокс не использует такой User-Agent).
- -e robots=offВообще-то, не используйте этот параметр. Он заставляет- wgetигнорировать правила, описанные в- robots.txt.
За инфу спасибо HydTechBlog.