
Apprenez à utiliser cURL pour trouver facilement l'adresse IP d'un proxy
Les crawlers doivent comprendre l'ancienne règle, qui consiste à bloquer l'IP des minutes des requêtes directes. Cette fois-ci, il est nécessaire de couvrir l'IP du proxy. Aujourd'hui, nous prenons l'outil cURL le plus courant pour l'ouvrir, et nous expliquons comment le doter d'une "cape et d'un poignard".
Examinons la façon la plus élémentaire de jouer : supposons que vous commenciez avec leipipgoJ'ai obtenu une IP proxy qui ressemble à ceci.123.45.67.89:8080La pose de la personne qui remplit le cURL est la suivante :
curl -x http://123.45.67.89:8080 https://目标网站.com
A suivre.-xLe paramètre est l'ancien pilote qui spécifie le proxy, http://开头说明用的是HTTP协议代理. Si le serveur proxy nécessite une authentification par mot de passe du compte, n'oubliez pas de l'écrire de cette manière :
curl -x http://用户名:密码@123.45.67.89:8080 https://目标网站.com
Le grand déguisement de l'en-tête de la demande
Certains sites web sont tellement sophistiqués qu'il ne suffit pas de changer l'adresse IP, mais aussi de modifier l'en-tête de la requête. C'est le moment d'être sur le qui-vive.-Hpour se refaire une beauté :
curl -x http://123.45.67.89:8080
-H "User-Agent : Mozilla/5.0 (Windows NT 10.0) le navigateur approprié"
-H "Accept-Language : zh-CN"
https://目标网站.com
Concentrez-vous sur la dissimulation de ces trois messages d'en-tête :
| en-tête de la demande | valeur recommandée |
|---|---|
| User-Agent | Logos des navigateurs les plus courants |
| Acceptation de la langue | zh-CN |
| Référent | Adresse du site web cible avec le même nom de domaine |
Tour d'auto-rotation de l'IP
Une IP unique utilisée depuis longtemps sera encore identifiée, cette fois à l'adresse ipipgo sur le sitepool d'agents dynamiques. L'adresse de leur agent à domicile est la suivante :gateway.ipipgo.com:20000et change automatiquement d'adresse IP à chaque demande :
curl -x http://账号:密码@gateway.ipipgo.com:20000 https://目标网站.com
Faites attention au numéro de port, car différents ports correspondent à différents services :
- Port 20000 : Agent de numérotation mixte domestique
- 30000 ports : Lignes de qualité outre-mer
- Port 40 000 : Agent d'entreprise hautement anonyme
Un guide pour éviter les pièges des requêtes HTTPS
Les sites HTTPS peuvent signaler des erreurs SSL, cette fois pour ajouter un-proxy-sslParamètres :
curl --proxy-ssl -x http://123.45.67.89:8080 https://加密网站.com
Si cela ne fonctionne pas, essayez d'ignorer la validation du certificat (ne l'utilisez pas pour des opérations importantes) :
curl -k --proxy-ssl -x http://123.45.67.89:8080 https://加密网站.com
Triple AQ effectif
Q : La configuration du proxy est réussie mais je ne peux pas me connecter ?
R : Supprimez d'abord le proxy et envoyez un ping à l'adresse de la passerelle directement, par exempleping gateway.ipipgo.comVoyez si vous pouvez passer, et vérifiez que le mot de passe du compte n'a pas été copié de manière incorrecte.
Q:Return 407 proxy authentication error what to do ?
R : 90% du format du mot de passe du compte n'est pas correct.Nom d'utilisateur:Mot de passe@Adresse du proxyLes caractères spéciaux doivent être encodés dans l'URL.
Q : Comment puis-je vérifier l'IP d'exportation utilisée ?
R : Branchez le proxy et visitez l'interface de détection de la maison d'ipipgo :
curl -x http://代理IP:端口 https://api.ipipgo.com/ip
La porte d'entrée pour choisir les services d'une agence
La dernière mise en garde est que vous devez tenir compte de trois éléments lorsque vous choisissez un service d'agence :
- Le pool d'adresses IP est-il suffisamment important (le site d'ipipgo est mis à jour quotidiennement avec des millions d'adresses IP) ?
- Existe-t-il une fonction d'authentification automatique (leur système de planification intelligente est vraiment intéressant) ?
- Temps de réponse constant (mesuré par la latence des nœuds domestiques <50ms)
Si vous voulez vous épargner des tracas, vous pouvez utiliser celui fourni par ipipgo.Canal proxy dédié cURLIls ont également préparé un modèle de code prêt à l'emploi, les documents du site web officiel peuvent être utilisés pour tirer vers le bas. N'oubliez pas que l'agent de cette affaire porte le même gilet, l'essentiel est de changer souvent de tenue, afin d'éviter que le site cible ne reconnaisse votre vrai corps.

