Aspirer un site internet | Mon pense-bête

Par ronan , 28 juillet, 2010

Pour aspirer un site internet

$ wget -r -l5 -k -E "http://www.l_adresse_du_site.a_recuperer.com"

-r : récursif sur le site
-l5 : cinq niveaux de récursion au maximum
-k : convertir les destinations des liens pour une lecture locale
-E : convertir les types de fichier au format HTML (pour éviter que la lecture de sites en PHP ne foire en lecture sous Firefox).

A l'aide de l'outil httrack

$ sudo apt-get install httrack

Pour aspirer le site :

$ httrack --mirror http://mon-site.com

Pour mettre à jour le site aspirer (se placer dans le dossier du site):

$ httrack --update

Etiquettes

Linux

Commandes

Votre nom

Commentaire

Format de texte

Plain text

Aucune balise HTML autorisée.
Les adresses de pages web et les adresses courriel se transforment en liens automatiquement.
Les lignes et les paragraphes vont à la ligne automatiquement.

Filtered HTML

Les adresses de pages web et les adresses courriel se transforment en liens automatiquement.
Balises HTML autorisées : <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd>
Les lignes et les paragraphes vont à la ligne automatiquement.

Authentification

Et comment fait-on sur un site où l'on doit s'authentifier au préalable ? Peut-on ajouter les id/pass en ligne de commande ?

Répondre

Authentification

Je pense que c'est possible.

Avec wget, il est possible d'utiliser des cookies pour la gestion de l'authentification.

Voir la doc ici

Répondre

Si tu veux aspirer un site

Si tu veux aspirer un site avec authentification, tu peux essayer de passer les identifiants en ligne de commande avec wget en utilisant l'option --http-user et --http-password. Ça devrait ressembler à quelque chose comme :

```bash
wget --http-user=ton_identifiant --http-password=ton_mot_de_passe -r -l5 -k -E "http://www.l_adresse_du_site_a_recuperer.com"
Sinon, une autre méthode consiste à utiliser les cookies d'une session déjà ouverte. Tu démarres une session dans ton navigateur, exportes les cookies, puis les réutilises dans wget avec l'option --load-cookies. C'est un peu plus technique mais ça peut être bien utile si tu as des étapes d'authentification plus complexes.

Pour ceux qui utilisent httrack, je crois qu'il y a aussi moyen de gérer les cookies, mais c’est un peu plus galère. Peut-être que d’autres ici ont déjà testé et pourraient confirmer ?

Je bosse en agence web, et quand le besoin se présente c'est comme cela que je procède.

Répondre