
Vous n'arrivez pas à contourner le blocage de l'IP ? Essayez cette astuce "Shift".
Les frères engagés dans le crawling comprennent, maintenant les voleurs du système anti-climbing, ne bougeant pas pour bloquer l'IP, en particulier avec le Selenium comme les fonctionnalités du navigateur, est tout simplement une cible vivante. L'année dernière, j'ai un projet, juste courir une demi-heure a été bloqué plus de 200 IP, presque écrasé le clavier.
Et puis j'ai trouvé une astuce diabolique...Mise en place d'un gilet proxy sur SeleniumLe principe est similaire à celui d'un jeu en ligne avec un petit numéro. Le principe est similaire à celui des jeux en ligne pour ouvrir un petit numéro, à chaque fois que vous vous connectez une identité différente. Ici nous recommandons d'utiliser le proxy résidentiel dynamique d'ipipgo, leur pool d'IP est suffisamment profond, j'ai testé les données de fonctionnement en continu pendant 24 heures sans être banni.
from selenium import webdriver
proxy = "123.123.123.123:8888" adresse proxy fournie par ipipgo
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument(f'--proxy-server=http://{proxy}')
driver = webdriver.Chrome(options=chrome_options)
Ne laissez pas le site web voir votre vrai visage
Il ne suffit pas de changer son IP, il faut aussi changer l'empreinte digitale de son navigateur. Certains sites web divulguent l'IP réelle via WebRTC, et c'est à ce moment-là que vous devezdouble protection: :
1) Désactiver les fuites WebRTC
chrome_options.add_argument("--disable-blink-features=AutomationControlled")
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
2. les agents utilisateurs aléatoires
| Type d'équipement | Programme recommandé |
|---|---|
| Windows (ordinateur) | Sélection aléatoire des versions 120-124 de Chrome UA |
| Mac | Utilisation de Safari version 16-17 UA |
Il est important d'avoir un sens du rythme dans la commutation des IP
J'ai vu trop de débutants commettre cette erreur - soit en changeant trop fort et en étant traité comme un bot, soit en changeant trop lentement et en étant banni. Suggestion basée sur les nids de poule que j'ai traversés :
- Site web ordinaire : changement d'IP toutes les 30 à 50 requêtes
- Site critique : changement toutes les 5-10 demandes
- Grâce au mode de commutation intelligent d'ipipgo, il peut s'adapter automatiquement à la fréquence de détection du site web cible.
Que se passe-t-il si je n'ai plus de pool d'adresses IP ?
Il y a eu une double saisie de données et le pool d'adresses IP a soudainement atteint son niveau le plus bas. Il s'est avéré par la suite qu'il s'agissait d'unUtilisation hiérarchique de la propriété intellectuelle: :
- Utilisation de l'IP du centre de données pour la détection du premier tour
- Noyau de traitement IP résidentiel Acquisition de données
- Conserver l'IP mobile de 5% pour faire face aux situations imprévues
Le pool de serveurs mandataires hybrides d'ipipgo prend en charge ce type de stratégie, en changeant automatiquement de type d'IP en fonction des différents scénarios, ce qui vous évite bien des maux de tête.
Guide pratique pour éviter la fosse
J'ai récemment aidé un ami à mettre au point un projet de crawler, en utilisant ces configurations pour obtenir 500 000 données en trois jours :
L'authentification par proxy est gérée automatiquement
proxy_auth_plugin = create_proxy_extension(
proxy_host="gateway.ipipgo.com",
proxy_port=9021,
proxy_user="Votre compte",
proxy_pass="clé dynamique"
)
chrome_options.add_extension(proxy_auth_plugin)
Foire aux questions QA
Q : Que dois-je faire si le proxy est souvent en panne ?
R : Vérifier si la fonction de maintien de session est activée, l'arrière-plan d'ipipgo peut définir le mode de connexion longue.
Q : Comment puis-je vérifier si l'agent est en fonction ?
R : Visitez http://ip.ipipgo.com/checkip pour voir les adresses IP de sortie actuellement utilisées.
Q : Quelle est la configuration requise pour un projet d'entreprise ?
R : Contactez directement le service clientèle d'ipipgo pour ouvrir une session avec un agent dédié, qui prend en charge plus de 100 commutations simultanées par seconde !
Ces astuces sont très lucratives, surtout avec la fonction de routage intelligent d'ipipgo qui contourne automatiquement les segments IP marqués. Récemment, ils ont mis au point un nouveau paquet de protection contre l'empreinte digitale du navigateur, prêt à être mis à l'eau le mois prochain, et nous partagerons alors avec vous les résultats des tests réels.

