
Jouer avec le camouflage des en-têtes de requête : faire en sorte que les requêtes des robots d'indexation ressemblent davantage aux actions de personnes réelles
Les anciens conducteurs qui travaillent avec des requêtes web savent que de nombreux sites web identifient le comportement de la machine en fonction des caractéristiques de l'en-tête de la requête. Tout comme un agent de sécurité de supermarché surveille les personnes qui prennent toujours le même article, le serveur surveille également les requêtes configurées avec le curl par défaut. Cette fois-ciMasquage de l'en-tête de la requête + IP proxyLa combinaison de la combinaison est particulièrement importante, notre propre service proxy ipipgo a pour but d'aider les gens à résoudre ce problème.
Demande d'une triple hache à tête camouflée
Le premier mouvement estExtraction des paramètres caractéristiquesC'est une bonne idée d'utiliser curl pour envoyer des requêtes avec des paramètres User-Agent. Lorsque vous envoyez une requête avec curl, vous apportez User-Agent par défaut, ce qui revient à porter un uniforme pour aller faire du shopping, indiquant clairement aux gens que vous êtes ici pour travailler.
curl -H "User-Agent : Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit/537.36"
-H "Accept-Language : zh-CN,zh;q=0.9"
-H "Referer : https://www.example.com/"
--proxy http://user:pass@proxy.ipipgo.cn:8080
https://target-site.com
Le deuxième mouvement estl'arrangement de paramètres aléatoiresN'écrivez pas dans un ordre fixe comme Accepter, Connexion, Hôte. N'écrivez pas dans un ordre fixe comme Accepter, Connexion, Hôte, tout comme lorsque vous jouez aux cartes, ne jouez pas toujours dans l'ordre du roi et de la reine. Les partenaires testés savent que le taux de survie de l'en-tête de requête désordonnée peut être amélioré de 30% ou plus.
Partenaire Gold de Proxy IP
Modifier l'en-tête de la requête ne suffit pas, vous devez travailler avec le proxy dynamique d'ipipgo. LeurPool IP résidentielLes avantages sont les suivants :
- Simulation de la trajectoire comportementale d'un utilisateur réel
- Changement automatique de l'IP de sortie toutes les 5 minutes
- Prise en charge de la commutation à double protocole socks5/http
N'oubliez pas d'ajouter un paramètre de délai d'attente lorsque vous utilisez leur proxy afin d'éviter de vous retrouver bloqué :
curl --proxy http://dynamic.ipipgo.cn:3128
--proxy-connect-timeout 15
---max-time 30
-H "Cache-Control : max-age=0"
https://target-site.com
Guide pratique pour éviter la fosse
Les débutants tombent souvent dans ces pièges :
1. Fuite d'empreinte digitale SSLCertains sites web détectent les caractéristiques de la poignée de main TLS, il est donc recommandé d'ajouter ce qui suit à la commande curl--tlsv1.2Version spécifiée
2. exposition au fuseau horaire: N'oubliez pas d'ajouterX-Timezone : Asie/ShanghaiCette tête commune
3. Résolution de l'appareilLes demandes de services mobiles doivent être adressées àRésolution de l'appareil : 1080x1920ce type de paramètre
Foire aux questions QA
Q : L'ordre de l'en-tête de la demande affecte-t-il vraiment la reconnaissance ?
R : Comme une plateforme de commerce électronique qui surveille la position de Accept-Encoding et Accept-Language, notre groupe de test a exécuté des dizaines de milliers de requêtes avec le proxy ipipgo, et le taux d'interception de la configuration désordonnée était inférieur à celui de la configuration standard 47%.
Q : Comment un agent dynamique maintient-il une session ?
A : ipipgo'sAgents de maintien de la sessionPrise en charge de l'IP fixe de 30 minutes, ajout de curl--proxy-keepalivefonctionnera.
Q : Comment détecter l'effet du camouflage ?
R : Il est recommandé d'utiliser le site officiel d'ipipgoOutil de détection de camouflageSi vous entrez dans la commande curl, vous pouvez voir les scores des paramètres.
Recommandations pour la mise à niveau des jeux
Les anciens utilisent ipipgo.Agent de routage intelligentLes meilleurs nœuds de sortie peuvent être automatiquement mis en correspondance en fonction du site web cible. Par exemple, si vous voulez escalader la station d'images, vous serez dirigé vers l'IP du réseau mobile, et si vous voulez vous engager dans l'interface de données, vous pouvez prendre la ligne du centre de données, qui est particulièrement facile à configurer dans curl :
curl --proxy http://smartroute.ipipgo.cn:8888
-H "X-Proxy-Mode : image_crawler"
https://image-site.com
Dernière remarque, le masquage des en-têtes de requête n'est pas une métaphysique, la clé réside dans les tests et les ajustements. L'avantage d'utiliser des proxys ipipgo est qu'ils ontContrôle des données d'interception en temps réelSi vous ne pouvez pas obtenir d'avertissement, vous serez en mesure d'obtenir un avertissement immédiatement, ce qui est bien mieux que de faire n'importe quoi.

