
XPath pour voler les adresses IP des serveurs mandataires
Les frères engagés dans la capture de données comprennent que XPath est comme la pelle minière de Luoyang, il ne peut pas creuser avec précision jusqu'aux données souhaitées, tout dépend de sa capacité à faire. Aujourd'hui, nous allons voir comment utiliser XPath pour localiser les informations de proxy dans la page web et, accessoirement, comment utiliser le service de proxy d'ipipgo pour faciliter les choses.
I. Mnémotechnique pratique sur le positionnement de XPath
Rappelez-vous ce moyen mnémotechnique :"Gardez un œil sur les attributs des balises, n'abandonnez pas le contenu textuel.. Par exemple, pour obtenir l'adresse IP dans ce code HTML :
192.168.1.1:8080
10.0.0.2:8888
Utilisez ce XPath pour tout obtenir en un seul endroit ://div[@class='proxy-list']/span/text().. Concentrez-vous sur la valeur de l'attribut de classe pour cibler directement le contenu du texte.
Deuxièmement, l'agent a mis en place des conseils anti-blocage
Directement au modèle de configuration des biens durables (exemple Python) :
Importation de requêtes
from lxml import etree
proxies = {
'http' : 'http://用户名:密码@gateway.ipipgo.com:端口', 'https' : 'http://用户名:密码@gateway.ipipgo.com:端口'
'https' : 'http://用户名:密码@gateway.ipipgo.com:端口'
}
response = requests.get('destination URL', proxies=proxies)
html = etree.HTML(response.text)
ip_list = html.xpath('// votre expression XPath')
Mettez-le en évidence trois fois :Veillez à utiliser une adresse IP résidentielle dynamique ! Avec des minutes d'IP statique à tirer par le site, le forfait résidentiel dynamique d'ipipgo de plus de 7 yuans 1G peut être utilisé pendant une longue période, moins cher que l'achat de thé au lait.
III - Lignes directrices pour l'élimination des pièges courants
| symptomatique | antidote |
|---|---|
| XPath n'est pas positionné correctement | Copier XPath avec les outils de développement du navigateur |
| L'agent ne peut pas se connecter. | Vérifier si la liste blanche est liée à une adresse IP locale |
| moteur de recherche lent | Commutation de l'offre de lignes privées TK d'ipipgo |
Quatrièmement, la porte de sélection des paquets
ipipgo La différence entre les trois paquets doit être bien comprise :
- Dynamique résidentielle (standard)Le prix des choux est de 7,67 $/G. Le prix des choux est de 7,67 $/G. Le prix des choux est de 7,67 $/G.
- Dynamic Residential (Entreprise): avec un accès exclusif, indispensable pour les grands projets.
- Maisons statiquesC'est le meilleur choix pour le développement d'un compte, 35 $ pour un mois sur une IP fixe.
Kit de premiers secours QA
Q : Que dois-je faire si XPath récupère une liste vide ?
R : Quatre-vingt pour cent de la structure de la page web a changé, et contient des fonctions de correspondance floue, telles que//div[contains(@class,'proxy')]
Q : L'IP Proxy était bloquée jusqu'à présent ?
R : changer la ligne transfrontalière d'ipipgo, leur pool d'IP est mis à jour plus de 200 000 fois par jour, avec plus de diligence que de changer de chaussettes.
Q : Que dois-je faire si je dois ouvrir plus d'un crawler en même temps ?
R : Créez plusieurs liens API dans l'arrière-plan de l'ipipgo, chaque crawler prend un canal séparé, ne vous contentez pas d'un seul mouton.
Le dernier bavardage : le positionnement XPath n'est pas de la métaphysique, essayez encore quelques fois pour sentir le chemin. Agent this piece of direct copy homework with ipipgo on the line, their socks5 protocol support is really fragrant, configured to play like. Ce qui ne comprend pas directement à leur service client technique, la vitesse de réponse plus rapide qu'un garçon à emporter.

