
当爬虫遇上防火:你的代理IP为什么突然失灵了?
Les amis engagés dans le crawling de données ont connu cette situation : il est évident que vous avez changé une douzaine d'IP de proxy, mais le site cible peut toujours identifier avec précision votre crawler. À ce moment-là, vous pouvez maudire : "Ce site web cassé anti-reptile défense avec la voûte comme !" En fait, le problème est que vous avez négligé un point essentiel - laEmpreinte TLS.
De nos jours, les systèmes anti-crawling ne se contentent plus d'examiner les adresses IP. Comme un coursier qui livre un colis, le site web veut non seulement vérifier votre permis de travail (adresse IP), mais aussi votre empreinte digitale (empreinte TLS). De nombreux fournisseurs de services proxy ne s'intéressent qu'à la modification de votre permis de travail, mais oublient de vous aider à falsifier vos empreintes digitales, ce qui vous permet d'être reconnu en quelques minutes.
Qu'est-ce que c'est que cette empreinte TLS ?
En termes simples, il s'agit de l'"identifiant" du navigateur qui établit une connexion cryptée avec un site web. Chaque poignée de main révèle plus de 20 caractéristiques, par exemple :
| terme caractéristique | Agent général | Navigateur réel |
|---|---|---|
| Empreintes digitales JA3 | Modèles corrigés | généré dynamiquement |
| version du protocole | TLS 1.2 uniquement | Prise en charge mixte de plusieurs versions |
| suite de chiffrement | Combinaison standard | Avec un tri spécifique au navigateur |
De nombreux services proxy sont comme des tampons en caoutchouc produits en masse, et toutes les demandes portent les mêmes empreintes digitales. Tant que le système anti-escalade trouve un grand nombre de demandes avec les mêmes empreintes digitales, peu importe le nombre d'adresses IP que vous changez, elles seront directement bloquées.
L'empreinte digitale des adresses IP de proxy.
Pour percer cette couche de défense, une approche à deux volets est nécessaire :
1. Pool IP dynamiqueLe monde de l'entreprise : Celui-ci s'adresse à tout le monde, mais soyez prudentLa répartition géographique doit être suffisamment diversifiéeLe dépôt de nœuds global, comme celui d'ipipgo, reproduit la distribution géographique des utilisateurs réels.
2. Camouflage des empreintes digitalesLe plus dur est fait : voici le plus dur ! Pour s'assurer que chaque requête IP porte une empreinte TLS différente, voici trois astuces pratiques recommandées :
- Empreintes digitales JA3 aléatoiresLes demandes d'accès à la suite de chiffrement ne sont pas prises en compte : n'utilisez pas un modèle fixe qui perturbe de manière aléatoire l'ordre de la suite de chiffrement à chaque demande.
- Fonctionnalités du navigateur émuléChrome, Firefox, toutes les versions d'empreintes digitales doivent pouvoir simuler
- Protocole Mode mixteLes demandes TLS 1.3 ne sont pas suffisantes, il faut intercaler des demandes TLS 1.2 pour plus de réalisme !
Exemple concret : le programme furtif d'ipipgo
Nous avons effectué des tests pour un projet de crawler de commerce électronique :
Système de proxy ordinaire : bloqué après 50 requêtes consécutives
Programme ipipgo : 3 jours de fonctionnement continu, avec un taux de réussite de plus de 981 TP3T
Paramètres de configuration clés :
- Correspondance automatique des empreintes digitales du navigateur par requête (Chromium, Webkit)
- Commutation dynamique entre les protocoles HTTP/2 et HTTP/1.1
- Injection automatique de variables d'environnement du navigateur (navigator.plugins etc.)
Foire aux questions QA
Q : J'ai utilisé une adresse IP dynamique, pourquoi est-elle encore reconnue ?
R : Aujourd'hui, les systèmes anti-escalade sontdétection multidimensionnelleLa propriété intellectuelle n'est que le premier seuil. C'est comme si vous changiez de vêtements mais pas de cheveux, vous serez toujours reconnu.
Q : Le camouflage des empreintes digitales d'ipipgo nécessite-t-il une configuration supplémentaire ?
R : Pas besoin ! Notre service proxy est déjà intégréSystème intelligent de simulation d'empreintes digitalesLa méthode d'accès est exactement la même que celle du proxy normal, il suffit d'ajouter un paramètre de détection de l'environnement dans le code.
Q : Le camouflage des empreintes digitales affecte-t-il la vitesse des demandes ?
R : Comme nous l'avons testé, une solution de camouflage d'empreintes digitales raisonnablement optimisée ne fera qu'augmenter le nombre d'empreintes digitales.5-8msce qui est bien en deçà des limites acceptables pour la plupart des projets d'exploration.
Enfin, pour dire la vérité, l'anti-grimpage et l'anti-grimpage sont un jeu de taoïsme. Si vous voulez une stabilité à long terme, vous devez choisir un fournisseur de services comme ipipgo qui met continuellement à jour ses contre-mesures. Après tout, les choses professionnelles doivent être confiées à des outils professionnels.

