
Le vieux conducteur reptilien a renversé le record actuel
La semaine dernière, un ami qui fait du commerce électronique est venu me voir en pleurant, leur équipe a passé trois mois à développer le crawler et a soudainement fait une grève collective. Après une demi-journée d'enquête, j'ai découvert que le problème résidait dans l'identification de l'agent utilisateur (UA) par le site web. C'est comme utiliser le même visage une douzaine de fois par jour en entrant et en sortant du quartier, le portier ne vous arrête pas pour arrêter qui ?
Aujourd'hui, le mécanisme anti-escalade est de plus en plus raffiné, et le simple fait de changer d'adresse IP ne suffit plus. Une fois, j'ai utilisé mon propre test d'IP de 200 proxy, et le résultat a été le suivantDemande de 62%Il a été implanté sur la détection de l'AU. On a découvert par la suite que les sites web détectaient les anomalies grâce à des détails tels que la version du navigateur et le modèle de l'appareil dans l'AU.
Guide du port de la cape invisible
Les vrais déguisements doivent être racontésà l'intérieur et à l'extérieur de la boîte: :
| site de camouflage | piège courant | prescription |
|---|---|---|
| Adresse IP | Visites répétées à haute fréquence | Pool d'IP Proxy Dynamique |
| Logo UA | Versions de navigateurs très utiles | Mise à jour en temps réel de la bibliothèque de l'UA |
| Caractéristiques comportementales | Intervalles de visite fixes | Délai de fonctionnement aléatoire |
Il est recommandé d'utiliser le proxy résidentiel dynamique d'ipipgo, dont le pool d'adresses IP est automatiquement mis à jour quotidiennement avec des segments d'adresses 15%. J'aime généralement utiliser le pool UA en conjonction avec les IP du proxy, en associant les valeurs comme suit :
import random
from ipipgo import ProxyPool
ua_list = [
"Mozilla/5.0 (Windows NT 10.0 ; Win64) AppleWebKit/537.36..." ,
"Mozilla/5.0 (X11 ; Linux x86_64) AppleWebKit/535.11..." ,
Il est recommandé de conserver plus de 300 UA réels
]
proxy = ProxyPool.get_proxy() Récupère automatiquement le dernier proxy
headers = {
'User-Agent' : random.choice(ua_list),
'Accept-Language' : 'en-US,en;q=0.9'
}
N'oubliez pas d'ajouter le délai aléatoire
time.sleep(random.uniform(1.2, 3.8))
Un guide en trois parties pour éviter la fosse
1. les conseils de conservation de l'UA :N'utilisez pas ces bibliothèques d'UA pourries, il est recommandé de collecter vous-même des données d'utilisateurs réels à partir d'outils d'analyse du trafic. J'utilise souvent Wireshark pour saisir les paquets et enregistrer les UA populaires des 3 derniers jours dans un fichier csv.
2. l'obscurcissement des empreintes digitales :Certains sites détectent désormais les empreintes de toile. Ce n'est pas lié à l'agent, mais il est recommandé d'ajouter cela au crawler :
const canvas = document.createElement('canvas') ;
ctx = canvas.getContext('2d') ;
ctx.fillStyle = 'rgb(' + Math.floor(Math.random() 256) + ', ...' ;
// Génération aléatoire des caractéristiques du canevas
3. le contrôle de la qualité des agents :Effectuez un contrôle hebdomadaire complet à l'aide de l'interface de test de connectivité fournie par ipipgo. L'API est assez rapide et vous pouvez voir quels segments IP sont marqués en temps réel :
curl -X GET "https://api.ipipgo.com/proxy/check?key=your_key"
Kit de premiers secours QA
Q : Les proxys gratuits fonctionnent-ils ?
R : L'année dernière, j'ai essayé un pool de proxy open source, 10 requêtes peuvent avoir 3 succès, c'est considéré comme de la chance. Puis j'ai changé d'agent commercial ipipgo, le taux de réussite a directement grimpé à 92%, ce qui est vraiment un comble.
Q : À quelle fréquence l'AU doit-il être mis à jour ?
A : Regardez la force de l'anti-crawl du site cible. La mise à jour mensuelle d'un site ordinaire est suffisante, contre le niveau d'anti-crawl d'une grande usine, il est recommandé de suivre le rythme de mise à jour de la version officielle de Chrome.
Q : Comment choisir un forfait agent ?
R : Examinez d'abord le scénario de l'entreprise. Comme celui d'ipipgoÉdition spéciale sur le commerce électroniqueStratégies d'accès spécifiquement optimisées pour les sites marchands, avec un taux de réussite de 18 points de pourcentage supérieur à celui de la version générique.
La solution de défense ultime
J'ai récemment aidé une organisation MCN à collecter des données et sa situation était particulièrement typique :
1) Nécessité de saisir simultanément 7 plates-formes de commerce électronique
2. 2 millions de demandes par jour
3. implique un mélange de capture d'images et d'API
Le programme final estipipgo Dynamic Residential Agent + Custom UA Rotation System (en anglais)en conjonction avec l'algorithme de contrôle de la fréquence de la demande. Le taux de stabilité est maintenu au-dessus de 89% pendant trois mois d'exploitation, ce qui représente une économie de 37% par rapport à la solution précédente construite par l'entreprise elle-même.
Enfin, ne considérez pas l'usurpation d'identité comme un projet ponctuel, c'est une bataille de longue haleine, tout comme la maintenance des adresses IP des serveurs mandataires. La semaine dernière, j'ai découvert qu'une plateforme avait ajouté la détection d'empreinte WebGL, et il y aura toujours de nouvelles armes sur le champ de bataille contre l'escalade.

