Si vous n'arrivez pas à obtenir Cloudflare, essayez ces caractères génériques.
Récemment, des amis qui font de la collecte de données se sont plaints à moi que le mécanisme anti-crawler de Cloudflare est de plus en plus difficile à gérer. Il ne bouge pas, il fait apparaître le CAPTCHA, il fait un bouclier de 5 secondes, et il a ces cryptages JS qui font mal au cerveau. Pas de panique, je vais sortir le fond de la boîte de l'expérience pratique, nous nous concentrons sur la façon d'utiliser l'IP proxy pour briser le jeu.
Le triple axe anti-escalade de Cloudflare
Vous devez connaître la routine de votre adversaire avant de voir ce que vous faites :
1. empreinte IP : enregistrement de vos habitudes d'accès, telles que la fréquence des demandes, la trajectoire des opérations
2. empreinte TLS : détection du client que vous utilisez, qu'il s'agisse d'un navigateur sérieux ou non
3. analyse comportementale : l'augmentation soudaine du nombre de visites s'adresse directement à vous pour vous interrompre
Les pools d'adresses IP dynamiques sont la solution
Collecter avec une IP fixe, c'est chercher la mort, Cloudflare vous débranchera en quelques minutes.Pool proxy dynamique pour ipipgoNotre équipe a testé l'efficacité, rappelez-vous le double onze de l'année dernière, avec leur rotation d'IP résidentielle, une demi-heure pour changer plus de 300 adresses a gelé sans se retourner.
Voici un exemple en Python (n'oubliez pas d'installer la bibliothèque requests) :
demandes d'importation
proxies = {
'http' : 'http://用户名:密码@gateway.ipipgo.com:9021',
'https' : 'http://用户名:密码@gateway.ipipgo.com:9021'
}
resp = requests.get('https://目标网站', proxies=proxies, timeout=10)
print(resp.text)
Agent résidentiel vs agent de salle de serveurs
Il y a une grande différence, voici donc un tableau comparatif :
| typologie | taux de réussite | tempo | Scénarios applicables |
|---|---|---|---|
| IP résidentielle | 85%+ | modéré | Sites web hautement protecteurs |
| Salle de serveurs IP | Autour de 60% | très rapide | contre-escalade normale (des oiseaux) |
Si vous obtenez un bouclier de 5 secondes de la part de Cloudflare, allez directement sur le site d'ipipgo.Agence résidentielle américaineC'est plus de trois fois plus rapide qu'une IP ordinaire par authentification.
Le responsable de la demande doit jouer un tour
Ne soyez pas idiot d'utiliser le même User-Agent, pour vous montrer un cas réel : un site de e-commerce avec une combinaison UA aléatoire + IP dynamique, la collecte du taux de réussite de 23% a grimpé à 79%. n'oubliez pas que chaque requête contient des Cookies, Cloudflare aime particulièrement vérifier cela.
headers = {
User-Agent' : random.choice(ua_list),
'Accept-Language' : 'en-US,en;q=0.9',
'Referer' : 'https://www.example.com'
}
Guide pratique pour éviter la fosse
Citez quelques erreurs courantes commises par les débutants :
1. les intervalles entre les demandes sont trop réguliers (utiliser des délais aléatoires, osciller entre 0,5 et 3 secondes)
2. ignorer l'authentification SSL (requests.get plus le paramètre verify=False)
3. adhérer de manière rigide à une certaine IP (3 échecs consécutifs pour se dépêcher de changer)
Foire aux questions QA
Q:Que dois-je faire si mon IP proxy ne fonctionne pas lorsque je l'utilise ?
R : Il est recommandé d'ouvrir la fonction de commutation automatique d'ipipgo, l'arrière-plan de la maison peut être configuré pour ne pas changer automatiquement l'adresse IP.
Q : Combien d'adresses IP dois-je utiliser en même temps ?
R : pour les petits projets, 50 à 100 adresses IP dynamiques suffisent ; pour les grandes collections, 500 pools d'adresses IP ou plus sont recommandés.
Q : Comment casser le cryptage JS ?
R : avec Selenium + proxy IP, n'oubliez pas de désactiver la propriété WebDriver
Une dernière chose, maintenant que Cloudflare est passé à la protection D7, ces proxies gratuits ne peuvent plus du tout gérer la situation. L'année dernière, nous avons entrepris un projet de crawler en utilisant les proxys d'ipipgo.Mexique IP résidentielle+ programme de randomisation de l'en-tête de la demande, difficile de saisir le taux de réussite du sec à 91%, le père a directement renouvelé le contrat de trois ans. Donc, ah, les choses professionnelles ou doivent trouver des outils professionnels.

