
Voici comment jouer lorsqu'un crawler est confronté à la détection de l'UA
De nombreux partenaires utilisant la bibliothèque de requêtes Python ont rencontré cette situation : il est évident que vous écrivez un bon code, mais le site cible est comme si vous ouvriez les yeux du ciel, il peut toujours vous identifier comme un crawler. Pas de panique.Masquage de l'agent utilisateur (UA) + Duo d'IP ProxyC'est la bonne solution.
La mise en place de l'UA n'est pas aussi simple que de changer de gilet
De nombreuses personnes pensent qu'une UA de navigateur aléatoire est la fin de l'histoire, mais en fait, il y a beaucoup de portes d'entrée. Les sites web jugeront de l'authenticité d'une UA en fonction de plusieurs caractéristiques, telles que :
Exemple d'erreur typique (ne jamais l'écrire comme ceci)
headers = {'User-Agent' : 'random UA'}
Gardez ces trois points à l'esprit pour adopter une bonne posture :
1. faire correspondre le modèle de l'appareil avec la version du navigateur (ne pas utiliser Chrome 120 pour l'ensemble de l'iPhone)
2. la langue et le fuseau horaire doivent correspondre l'un à l'autre (les adresses IP américaines avec la langue zh-CN seront exposées).
3. la fréquence des demandes doit être calquée sur celle de personnes réelles (les pics soudains de demandes seront bloqués).
Sélection de l'IP proxy avec précaution
Il ne suffit pas de changer l'UA, il faut l'utiliser avec une IP proxy. Il existe trois types de proxy sur le marché :
| typologie | anonymat | Scénarios applicables |
|---|---|---|
| Agent transparent | le plus bas | Acquisition générale de données |
| Agent anonyme | modéré | Exigences générales en matière d'étanchéité |
| Agents à forte valeur ajoutée | suprême | scénario strict de lutte contre l'escalade |
Je me dois de vanter les mérites de mon propre produit.Pool de Proxy High Stash pour ipipgoLe test réel peut porter sur une certaine plateforme de commerce électronique pendant 7 jours consécutifs, la configuration spécifique étant indiquée dans le code :
demandes d'importation
proxies = {
'http' : 'http://用户名:密码@gateway.ipipgo.com:9020',
'https' : 'https://用户名:密码@gateway.ipipgo.com:9020'
}
headers = {
User-Agent' : 'Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0'
}
response = requests.get('https://目标网站', headers=headers, proxies=proxies)
Guide pratique pour éviter la fosse
Récemment, alors que j'aidais un client à acquérir un site web de voyage, j'ai relevé trois points essentiels :
1. L'intervalle de commutation de l'AU entre 3 et 5 heures doit être supérieur à 120 secondes (ne demandez pas comment vous le savez, ce sont des larmes).
2. l'UA de l'appareil Android avec un identifiant de réseau mobile (par exemple, la chaîne de caractères devant MobiLeo)
3. utilisation de l'ipipgoaffectation dynamique des portsFonctions avec un taux de survie plus élevé que les ports fixes 40%
Foire aux questions QA
Q : J'ai configuré l'UA et le proxy et je suis toujours bloqué ?
R : Vérifiez la pureté de l'adresse IP ; nous vous recommandons d'utiliser le progiciel de proxy d'entreprise d'ipipgo, dont l'adresse IP est dotée d'un mécanisme d'authentification de la personne réelle.
Q : Dois-je modifier l'AU pour chaque demande ?
R : Il faut tenir compte du niveau de contrôle du vent sur le site. Sur un site ordinaire, il faut 2 à 3 heures pour changer une fois sur la ligne, l'essentiel étant de conserver les mêmes caractéristiques pour l'équipement.
Q : Comment le proxy d'ipipgo garantit-il la stabilité ?
R : Ils utilisent le pool d'IP dynamiques du réseau cellulaire, chaque demande est une nouvelle IP d'exportation, pro-test de collecte continue pendant 8 heures sans interruption !
Recommandations pour la mise à niveau des jeux
Pour les joueurs gris, essayezConfusion des empreintes digitales de l'UALa stratégie de rotation des adresses IP d'ipipgo permet d'obtenir un taux de réussite directement supérieur à la moyenne.
Exemple de génération d'UA basée sur des composants
device = ['Windows NT 10.0', 'Macintosh ; Intel Mac OS X 10_15_7']
navigateur = ['Chrome/120.0.0.0', 'Safari/537.36']
ua = f "Mozilla/5.0 ({choix.aléatoire(appareil)}) AppleWebKit/537.36 ({choix.aléatoire(navigateur)})"
Pour conclure par une déclaration sincère, l'essence de la lutte contre la détection est deconfrontation homme-ordinateurLa première chose à faire est de maintenir la technologie à jour. Par exemple, l'équipe technique d'ipipgo met à jour sa bibliothèque de stratégies anti-crawl chaque semaine, ce qui vous évite bien des maux de cœur par rapport à ce que vous feriez si vous deviez vous en débarrasser vous-même.

