
Pourquoi curl est-il toujours bloqué en redirection lors de l'utilisation d'un proxy IP ?
Les amis engagés dans le crawling ont dû rencontrer cette situation : en demandant le site avec curl, il est évident que la page doit automatiquement sauter mort ne retourne pas de données. Surtout après avoir utilisé une IP proxy.Le taux d'échec de la redirection double directement. En voici une froide - les sites de plus de 60% mettront en place plus de 3 sauts de page dans la session de connexion/authentification.
// Démonstration d'une erreur typique (le suivi des redirections n'est pas activé)
curl -x http://代理IP:端口 http://example.com/login
À ce stade, le serveur peut renvoyer un code de statut 302, mais votre curl est coincé en place comme un piquet de bois. Le technicien d'ipipgo l'a découvert.Les requêtes sans le paramètre -L ont une probabilité de 78% de perdre des données critiques.en particulier lors de l'utilisation de pools d'agents dynamiques.
Trois astuces pour que les boucles suivent docilement les sauts
Conseil n° 1 : activer le mode suivi(Like walking a dog on a leash (comme promener un chien en laisse).
curl -L -x http://用户名:密码@ipipgo proxy IP:port Destination URL
Ce paramètre -L est la navigation GPS de curl, la rencontre 301/302 code de statut va automatiquement chasser vers la nouvelle adresse. Notez que le format proxy de ipipgo avec mot de passe de compte, ne pas apprendre certains tutoriels seulement écrire IP pas d'authentification.
Conseil n° 2 : Barrière d'information dans l'en-tête(agit comme un navigateur normal)
curl -L -x http://ipipgo代理IP:端口
-H "User-Agent : Mozilla/5.0"
-H "Referer : https://上一级页面"
URL de destination
De nombreux sites web vérifieront l'en-tête de la requête, en utilisant l'IP proxy résidentiel d'ipipgo avec ce déguisement, le taux de réussite peut être mentionné de 40% à 90%+.
| paramètres | effet | valeur recommandée |
|---|---|---|
| -max-redirs | Anti-saut infini | Recommandé 5 à 8 fois |
| -connect-timeout | Délai de connexion | La durée optimale est de 15 secondes. |
Des comptes rendus des pièges du combat (leçons apprises dans le sang et les larmes)
Lors de mes tests avec l'un des proxys gratuits la semaine dernière, je suis resté bloqué sur la page de vérification pendant 10 requêtes d'affilée. En passant au proxy d'ipipgoIP statique de longue duréePar la suite, il s'est avéré qu'il s'agissait d'un cookie qui n'était pas accompagné du bon - il s'avère que certains sites sautent avec le cookie de la demande initiale.
// Posture correcte (sauvegarder et utiliser les cookies)
curl -L -x http://ipipgo代理IP:端口
-c cookies.txt -b cookies.txt
URL cible
Voici une opération peu ragoûtante : utiliser le logiciel ipipgo'sFonction de liaison géographique IPSi l'on fait correspondre l'IP du proxy avec l'emplacement du serveur qui saute sur la page, la vitesse de réponse est directement multipliée par trois.
Lignes directrices sur le déminage des problèmes courants
Q:Dis-je que j'ai tout configuré correctement ou que le saut a échoué ?
A : quatre-vingt-dix pour cent est l'IP proxy était le site cible a tiré noir, dépêchez-vous de changer ipipgo.IP dédiée de haute qualitéN'utilisez pas ces piscines partagées pourries.
Q : J'obtiens un code désordonné après le saut ?
R : 80% rencontrent la compression gzip, n'oubliez pas d'ajouter le paramètre -compressed :
curl -L --compressé -x http://ipipgo代理IP:端口 Site web
Q : Comment puis-je confirmer que le saut est réussi ?
R : Ajoutez le paramètre -v pour voir le processus détaillé, en vous concentrant sur ces deux endroits :
< HTTP/1.1 302 Found
< Emplacement : https://跳转地址
Un dernier conseil à froid : utilisez la fonctionChangement automatique d'adresse IP de l'APIavec le paramètre curl retry, peut réaliser un suivi de saut entièrement automatique, le schéma de configuration spécifique peut trouver sa technologie familiale dans des scripts prêts à l'emploi.

