
Saisie de données à la manière de Python
Récemment, de nombreux petits partenaires m'ont demandé de voir les procédures d'autres personnes pour saisir automatiquement le prix des marchandises, saisir les billets de concert, écrire leur propre code est toujours bloqué IP comment faire ? Cette chose n'est pas difficile à dire, ce jour pour vous enseigner comment utiliser l'IP proxy pour jouer avec la capture de données. Ne soyez pas pressé de fermer la page, je vous promets de ne pas parler de la terminologie qui n'est pas claire pour moi, passons maintenant au code de l'abrutissement.
Pourquoi votre crawler est-il toujours dans l'obscurité ?
Les webmasters ne sont pas végétariens, ils voient une certaine demande d'IP folle, directement sur votre liste noire. J'ai vu la plateforme de commerce électronique la plus impitoyable, 20 visites consécutives au blocage de l'IP, cette fois-ci pour utiliser l'outil de gestion de l'IP.pool d'IP proxypour dissimuler leur véritable identité, comme s'ils jouaient à la poule mouillée et changeaient sans cesse d'armure.
| prendre | Type d'IP recommandé |
|---|---|
| Visites à haute fréquence | IP dynamique de courte durée |
| Surveillance à long terme | IP statique dédiée |
| Limitation géographique | Positionnement au niveau de la ville IP |
Code ouvert dans le monde réel
Tout d'abord, installez la bibliothèque de requêtes, c'est notre pelle Luoyang. Concentrez-vous sur la façon d'insérer des adresses IP de proxy :
demandes d'importation
à partir d'un choix d'importation aléatoire
Pool de proxy de ipipgo
proxy_pool = [
"http://user:pass@gateway.ipipgo.com:9020",
"http://user:pass@gateway.ipipgo.com:9021".
Minimum de 20 IP ici
]
url = "https://目标网站.com/data"
try.
resp = requests.get(url,
proxies={"http" : choice(proxy_pool)},
timeout=8
)
print(resp.text)
except Exception as e.
print(f "Fini : {str(e)}")
Notez les trois points :
1. le format du mandataire doit être écrit correctement, le mot de passe du compte ne doit pas être inversé
2. chaque demande de PI sélectionnée de manière aléatoire, ne pas attraper de saisie
3) Ne fixez pas le délai d'attente à plus de 10 secondes, sinon le système se bloquera.
Conseils essentiels pour les joueurs avancés
Ne pensez pas que l'ajout d'un agent est la seule chose qui compte, le site propose d'autres astuces préjudiciables :
- Détection de l'agent utilisateur (n'oubliez pas d'utiliser la bibliothèque fake_useragent)
- Contrôle de la fréquence des demandes (contrôle jusqu'à 3 fois par seconde)
- Captcha raid (il faut changer d'adresse IP et effacer les cookies à ce stade)
Recommandé pour ipipgoMode de commutation intelligentL'API peut changer automatiquement l'adresse IP, ce qui est plus pratique que de maintenir le pool soi-même. En particulier dans le cadre d'un système de comparaison des prix, chaque heure pour attraper des milliers de pages, aucun agent fiable ne peut tout simplement pas jouer.
Scène de renversement courante AQ
Q:Pourquoi ne puis-je pas récupérer les données alors que le code est correct ?
R : 80% du site utilise un chargement asynchrone, il faut utiliser selenium avec le proxy, ou trouver directement l'adresse de l'interface.
Q : Les proxys gratuits fonctionnent-ils ?
R : Les débutants peuvent s'entraîner, mais jamais un projet sérieux ! J'ai utilisé une IP gratuite la dernière fois, le résultat est d'attraper les fausses données modifiées par d'autres, perte de sang !
Q : Comment choisir un forfait pour ipipgo ?
R : Pour le développement personnel, optez pour le forfait expérience à 19 $/jour, et pour l'entreprise, utilisez le forfait personnalisé. Ils ont une astuce cachée - 12 heures au milieu de la nuit les renouvellements ont des réductions, le grand public je ne le dis pas !
L'arcane anti-blocage ultime
Enfin, j'aimerais vous faire part d'un conseil unique :
1. utilisation mixte de PI résidentiels et de PI de salles de serveurs
2. proxy HTTPS pour les demandes importantes
3. mise à jour hebdomadaire de la liste blanche des adresses IP
Ces astuces, associées à la fonction de détection de la qualité IP d'ipipgo, permettent d'obtenir un crawl stable par tous les temps. La dernière fois que j'ai utilisé cet ensemble de solutions, j'ai fonctionné pendant 72 heures d'affilée et j'ai gelé sans être banni.
Je ne pense pas qu'il soit facile d'en parler aujourd'hui, mais je n'ai pas eu à payer beaucoup de frais de scolarité à l'époque. Rappelez-vous que la capture de données est une bataille offensive et défensive, le proxy IP est votre gilet pare-balles. Si vous avez des questions spécifiques, n'hésitez pas à nous les poser, nous reviendrons. Ne vous contentez pas de collecter ah, ouvrez rapidement l'éditeur pour vous entraîner !

