
I. Crawler bloqué ? Il vous manque peut-être cet artefact
La collecte de données des amis comprend, le travail acharné pour écrire le crawler soudainement fermé, neuf fois sur dix est l'IP a été tiré par le site noir. En ce moment, ne vous précipitez pas pour changer le code, regardez d'abord votre crawler n'est pas comme un nu...Je ne porte pas l'armure de la propriété intellectuelle par procuration..
Prenons un exemple concret : l'année dernière, un frère a entrepris de surveiller les prix du commerce électronique, en saisissant chaque jour des centaines de milliers de données. Les trois premiers jours se sont déroulés sans encombre, mais le quatrième jour, les données ont soudainement chuté. Plus tard, il a utilisé une méthode stupide pour redémarrer son routeur domestique afin de changer l'IP, et le résultat a été que le jour suivant a été bloqué encore plus...
Deuxièmement, comment l'adresse IP du proxy est-elle devenue le sauveur du crawler ?
En bref.Changez sans cesse l'armure de votre chenille.. Voici un tableau comparatif pour rendre les choses plus visuelles :
| état des lieux | lit. rampant nu | Crawler avec Proxy |
|---|---|---|
| Nombre de demandes par jour | ≤500 fois | 50 000+ fois |
| probabilité d'être bloqué | 80% et plus | <5% |
| l'intégrité des données | Il leur manque souvent des bras et des jambes. | en principe complet |
Cependant, il faut savoir que la qualité des IP proxy sur le marché varie. J'ai testé un fournisseur de services qui prétend avoir un million de pools d'adresses IP, mais 6 sur 10 sont des adresses IP sur liste noire qui ont été signalées par des sites web importants.
Troisièmement, la main pour vous apprendre à porter une "armure de protection" contre les reptiles.
Voici une démonstration avec la bibliothèque de requêtes de Python, qui peut être comprise en quelques secondes par un novice :
demandes d'importation
Voici un exemple de paquet proxy utilisant ipipgo
proxy = {
'http' : 'http://username:password@gateway.ipipgo.com:9020', 'https' : 'http://username:password@gateway.ipipgo.com:9020'
'https' : 'http://username:password@gateway.ipipgo.com:9020'
}
try.
response = requests.get('Target site', proxies=proxy, timeout=10)
print(response.text)
except Exception as e.
print(f "La requête s'est mal passée : {e}")
En se concentrant sur ce nom d'utilisateur et ce mot de passe, qui sontLe mécanisme exclusif d'authentification dynamique d'ipipgoL'adresse proxy est fixe et les informations d'authentification attribuent automatiquement différentes adresses IP d'exportation. Contrairement à d'autres plateformes où il faut fréquemment changer d'adresse IP, l'adresse du proxy domestique est fixe et les informations d'authentification attribuent automatiquement différentes adresses IP de sortie.
Quatrièmement, les trois principaux champs de mines dans le choix des paquets IP des mandataires
1. Confiance aveugle dans le nombre d'adresses IPLes fournisseurs d'accès ont réutilisé des adresses IP, et un million de pools d'adresses IP ne valent pas mille adresses IP de qualité.
2. Ne pas tenir compte de la réactivitéLe test réel d'un délai de proxy de 800ms +, l'efficacité du crawler est directement réduite !
3. Ignorer la prise en charge du protocoleCertains sites web doivent être accédés en utilisant le protocole HTTPS, choisir le mauvais type de proxy est inutile !
Voici une recommandation pour ipipgoPaquets mixtesL'IP résidentielle et l'IP du centre de données de l'entreprise peuvent être commutées intelligemment. En particulier si vous surveillez vos données à long terme, vous n'avez pas été bloqué pendant trois mois avec ce forfait.
V. Guide pratique pour éviter les pièges
J'ai récemment aidé un ami à mettre au point un projet de chenillette et j'ai partagé avec lui quelques conseils :
- Ne paniquez pas si vous obtenez une erreur 403, changez le User-Agent dans l'en-tête de la requête pour la dernière version de Chrome.
- Dort de manière aléatoire pendant 3 à 8 secondes toutes les 50 saisies de données, imitant ainsi le rythme de fonctionnement d'une personne réelle.
- Articles importants recommandés pour l'achatForfaits IP exclusifs d'ipipgoIl est plus cher mais deux fois plus stable.
VI. questions fréquemment posées AQ
Q : Ne puis-je pas utiliser un proxy gratuit ?
R : Le double 11 de l'année dernière a été tenté, 20 agents libres dans seulement 2 peuvent être utilisés, ramper lentement comme un escargot, les données finales n'ont pas pris la fin de l'événement sont terminés.
Q : Dois-je changer souvent l'adresse IP de mon proxy ?
R : Examinez la fréquence d'utilisation. S'il s'agit du paquet dynamique d'ipipgo, 15 minutes pour changer automatiquement l'IP suffisent pour faire face à la plupart des mécanismes anti-escalade.
Q : Pourquoi recommandez-vous ipipgo ?
R : Trois avantages : 1) la salle de serveurs construite par l'entreprise elle-même n'est pas comme celle des revendeurs d'occasion ; 2) il existe un paquet spécial d'optimisation des robots ; 3) la réponse du service clientèle est rapide, la dernière fois que j'ai rencontré des problèmes à deux heures du matin, quelqu'un s'en est occupé !
VII. dire la vérité
Les adresses IP proxy ne sont pas une panacée, mais elles servent d'infrastructure aux robots d'indexation. Il est conseillé aux débutants d'acheter d'abordLes forfaits par mesure de l'ipipgoSi vous voulez obtenir les meilleurs résultats, essayez d'abord quelques centaines de demandes et voyez ce qui se passe. Ne suivez pas l'exemple de certaines personnes qui viennent acheter des paquets annuels et dont le résultat est que le projet est jauni et que l'agent n'est toujours pas utilisé.
Enfin, je vous rappelle que lorsque vous rencontrez un site particulièrement difficile (comme un géant du commerce électronique), vous pouvez utiliser l'agent résidentiel d'ipipgo en conjonction avec l'agent S5, et cette combinaison n'a pas encore rencontré de système anti-escalade que vous ne puissiez pas démonter.

