
Apprenez à utiliser Selenium + proxy IP pour casser l'anti-escalade des sites web
Les confrères engagés dans le crawling savent que le mécanisme anti-climbing du site est maintenant de plus en plus raffiné. Aujourd'hui, nous parlons d'une astuce difficile - avec Selenium avec proxy IP, spécialisé dans une variété de difficultés anti-escalade. Cette astuce peut être plus utile que le déguisement ordinaire de l'en-tête de requête, après tout, les empreintes digitales du navigateur de ce site ne peuvent pas être bonnes à briser.
Pourquoi votre crawler est-il toujours bloqué ?
La plupart des sites web se concentrent sur trois points essentiels :Fréquence des requêtes, caractéristiques IP, empreintes digitales du navigateurLa première chose à faire est d'envoyer des requêtes à l'aide de la bibliothèque requests. L'utilisation de la bibliothèque de requêtes pour envoyer des requêtes n'est pas différente de l'exécution d'un programme nu. Par exemple, un site de commerce électronique a constaté que la même IP demandait 50 fois par minute, ce qui vous a immédiatement placé sur une liste noire. Cette fois-ci, si vous pouvezChanger d'IP toutes les 5 demandesLe taux de réussite est directement doublé lorsqu'il est associé à un environnement de navigation réel.
Configuration réelle de Selenium+Proxy IP
Commençons par la manière d'insérer une IP proxy dans Selenium. ipipgo's est recommandé.Agents résidentiels dynamiquesL'API est très pratique pour les voleurs de propriété intellectuelle. Regardez l'exemple de code :
from selenium import webdriver
proxy = "123.123.123.123:8888" Utiliser l'interface d'extraction ipipgo ici.
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument(f'--proxy-server=http://{proxy}')
driver = webdriver.Chrome(options=chrome_options)
driver.get("https://目标网站.com")
Attention aux nids-de-poule :Vous devez tester la disponibilité de l'adresse IP du proxy, il est recommandé d'utiliser le service d'ipipgoInterface de détection de survieafin d'éviter que des adresses IP mortes ne bloquent le crawler.
Commutation dynamique de l'IP
Il ne suffit pas de faire appel à un agent, il faut le faire.Rotation du pool d'adresses IPC'est une bonne idée : l'API ipipgo est connectée au système de crawler. Voici une astuce : l'API ipipgo accède au système de crawler, à chaque fois que vous démarrez une nouvelle instance de navigateur, l'IP sera automatiquement changée. Testez un site de recrutement avec cette méthode, collecte continue de 8 heures sans être bloqué.
| Type de programme | Temps de survie IP | Scénarios applicables |
|---|---|---|
| Agents dynamiques à courte durée d'action | 3-10 minutes | Scénario de demande à haute fréquence |
| Agents statiques de longue durée | 24 heures | rétention |
Les dix-huit moyens de contre-détection
Il ne suffit pas de changer d'adresse IP, il faut un déguisement complet :
- Trajectoire aléatoire de la souris (ne pas tracer de lignes droites)
- Simulation d'une personne réelle faisant défiler une page (rapide et lente)
- Temps d'attente aléatoire (variable de 0,5 à 3 secondes)
- Avec ipipgo.Liaison de géolocalisationFonction permettant de faire correspondre les fuseaux horaires de l'IP et du navigateur
Questions fréquemment posées
Q : Que dois-je faire si l'IP de mon proxy est lente ?
A : Choisir celui d'ipipgoUtilisation exclusive des lignes à grande vitesse,实测能压到200ms以内。别贪便宜用共享池,速度真的拉胯。
Q : Comment casser le CAPTCHA lorsque je le rencontre ?
R : Deux idées : ① utiliser ipipgo'sSortie fixe IPCoopérer avec la plateforme de codage ② changer automatiquement l'IP + effacer les cookies après avoir déclenché le code de vérification
Q : Comment puis-je vérifier que le proxy fonctionne ?
R : Visitez http://ip111.cn这类检测网站 et concentrez-vous surTrois paramètres clésCohérence de l'adresse IP, du fuseau horaire et de l'emplacement de la résolution DNS
Enfin, je voudrais rappeler aux frères qu'ils doivent s'intéresser aux services de l'agence.Pureté IPJ'ai déjà utilisé certains proxys plus petits. J'ai utilisé certains petits proxys d'usine auparavant et les IP ont été marquées depuis longtemps comme des centres de données par des sites web majeurs. Maintenant, j'utilise le proxy résidentiel d'ipipgo, et le taux de réussite est stable à plus de 92%. La clé est leur proxy résidentielCouverture nationale de plus de 300 villesce qui est particulièrement agréable lors de la collecte de données géographiques.

