Wget est un utilitaire qui permet de télécharger ce que vous lui demanderez. Sa particularité : il ne se pilote qu’en ligne de commande, ce qui en fait l’outil idéal pour créer des shell scripts. Il me sert tellement souvent que j’ai pensé qu’il méritais bien un petit billet.
Téléchargement en local, tout le site de aemeth.org en une seule ligne :
1 | wget -rkpE http://www.crashdump.fr/ |
Explication des options :
-r : récursif
-k : corrige les chemins pour que les liens en local ne soient pas cassés (très utile pour moi qui commence toujours mes liens par un / pour recevnir à la racine du site)
-p : page : se débrouille pour télécharger un max de trucs qui font que la page html sera correctement visible. (j’ai pas tout compris mais ça semble aider à avoir un bon mirroir local)
-E : rajoute .html à la fin de tout ce qui est téléchargé avec un type text/html mais dont le nom ne termine pas par .html. C’est formidable, car cela permet qu’un site tel que le miens, dont les pages n’affichent pas leur extentions, soient consultables off-line, depuis un disque dur.
Voila, en une seule instruction, vous avez téléchargé un site entier.
Télécharger un dossier et ses sous-dossiers
Pour télécharger un site qui se trouverait seulement dans un répertoire, sans déborder de se répertoire, voici l’instruction :
1 | wget -rkpE -np http://public.crashdump.fr/bash/ |
-np : no-parent : reste à l’intérieur du répertoire donné et n’en déborde pas.
Autres fonctionnalités
wget est vraiment bien foutu car il :
- comprends ssl et peut donc naviger sur les sites sécurisés
- comprends les cookies
- accepte les login/pwd pour se connecter à des sites privés
- accepte les proxies
- accepte le time stamping


