2
Indiquez l’intérêt que vous portez à cette question
0

Problème de récupération de données par wget, curl ou python (cookies)

Bonjour,
Pour une association qui utilise SPIP pour son site web, ainsi que pour la préparations d’articles pour une revue, je dois récupérer les données qui sont sur des pages de ’http;//.........ecrire/ ?exec=articles&id_article=xxxx’.
J’en extrais le code, puis je bricole pour en sortir les pages qui vont bien pour la suite de mes tâches.
J’ouvre une page "table des matières" contenant des liens vers les autres articles.

Pour automatiser cela, j’utilisais les commandes curl ou wget sous Linux. D’abord je m’identifiais sur l’espace privé sur un navigateur (firefox ou chrome) ; je sauvais mes cookies vers un fichier et je faisais wget avec l’utilisation des cookies dans les paramètres.

C’est un peu moche, mais c’est la seule chose que j’avais trouvée.

Mais depuis un mois ou deux, ça ne marche plus : je peux toujours aller dans l’espace privé en m’identifiant, et je reste identifié plusieurs jours. Par contre, pour les commandes wget, curl ou d’autres en python, je ne reçois que le code source de la page d’identification...

Quelqu’un a-t-il un idée ? Ou un moyen de récuperer les textes sources et images, d’une façon plus jolie ?

Merci.