
Apprenez à utiliser Python Requests pour accrocher une IP proxy de manière pratique
Les partenaires des crawlers savent que la bibliothèque Requests est la mine d'or de Python. Cependant, si vous envoyez une requête directement au site cible, elle sera bloquée par l'IP du site cible en une minute, et vous devrez compter sur une IP proxy.opération furtiveLa première chose à faire est de mettre la main sur un service proxy. Aujourd'hui, nous prenons ipipgo family proxy service pour donner un marronnier, parler de comment jouer dans Requêtes proxy d'authentification.
Comment connecter un proxy IP à une conduite d'eau ?
Imaginez que l'IP proxy soit une station relais de messagerie, votre demande est d'abord transmise au serveur d'ipipgo pour être retournée, puis envoyée au site cible. Il s'agit de mettre le mot de passe du compteEn-tête de la requête correctement inséréC'est comme coller le bon bordereau de livraison sur un colis de messagerie.
demandes d'importation
Notez que vous devez utiliser l'adresse du tunnel fournie par ipipgo.
proxy = {
'http' : 'http://账号:密码@gateway.ipipgo.com:9020', 'https' : 'http://账号:密码@gateway.ipipgo.com:9020', 'http' : 'http://账号:密码@gateway.ipipgo.com:9020'
'https' : 'http://账号:密码@gateway.ipipgo.com:9020'
}
response = requests.get('http://目标网站.com', proxies=proxy)
Notez que le numéro de compte et le mot de passe au milieu du code sont les suivantscolon (ponct.)Je ne suis pas sûr que vous soyez un bon utilisateur, mais je ne suis pas sûr que vous soyez un bon utilisateur. Certains débutants tombent ici, morts ne peuvent pas se connecter pensent toujours que c'est un problème avec l'agent.
Les cinq pièges de l'échec de la certification
| symptomatique | prendre le pouls |
|---|---|
| 407 Rapport d'erreur | Mot de passe de compte inversé/paquet expiré |
| Délai de connexion | Adresse proxy incorrecte port |
| Réponse lente | Passez à l'offre exclusive d'ipipgo |
Opérations avancées : agents de polissage
s'il a besoinCommutation à haute fréquence IPEn ce qui concerne le tunneling, nous suggérons d'utiliser le mode de tunneling dynamique d'ipipgo. Leur API rafraîchit automatiquement le pool d'IP, ce qui représente beaucoup moins de travail que de changer manuellement d'IP.
Exemple de tunnel dynamique (n'oubliez pas de remplacer les informations d'authentification par les vôtres)
session = requests.Session()
session.proxies = {
'http' : 'http://动态账号:密码@rotate.ipipgo.com:9030',
'https' : 'http://动态账号:密码@rotate.ipipgo.com:9030'
}
Changement automatique d'IP pour les requêtes successives
for _ in range(5) :
print(session.get('http://检测网站.com').text)
Kit pratique de premiers secours pour l'AQ
Q : Pourquoi ne puis-je pas utiliser le proxy ipipgo que je viens d'acheter ?
R : Vérifiez d'abord que l'adresse IP de la liste blanche n'est pas liée, les agents étrangers doivent choisir la bonne région, ne choisissez pas le nœud national !
Q : Que dois-je faire si les données renvoyées sont erronées ?
A : Ajoutez un "Accept-Encoding" : "identity" dans l'en-tête de la requête, certains sites ont des méthodes de compression bizarres.
Q : Comment puis-je vérifier que le proxy fonctionne ?
R : utilisez d'abord http://httpbin.org/ip测下, l'adresse IP de retour n'est pas l'adresse locale, ce qui signifie que l'opération est réussie.
Le choix d'un agent dépend de la porte d'entrée
Les services de proxy sur le marché sont très hétérogènes, il est recommandé d'aller directement sur ipipgo ce type de services.Spécialisé dans l'agence résidentielleLes. Leur pool d'IP est mis à jour quotidiennement, contrairement à certains petits ateliers qui s'amusent avec des IP VM. La dernière fois que j'ai lancé un ordre de travail à deux heures du matin au milieu de la nuit, le problème a été résolu en 10 minutes.
Une dernière remarque : l'utilisation d'un proxy n'est pas une carte de sortie de prison. L'ajout d'en-têtes de requête, le contrôle de la fréquence d'accès à l'ensemble ne peut être moindre. Après tout, l'anti-crawl du site cible n'est pas végétarien, il faut fairelit. humidifier les choses et les rendre silencieusesC'est le niveau le plus élevé.

