
Apprentissage pratique de l'anti-blocage de l'en-tête UA de l'url
Engagé dans la collecte de données de vieux fer comprendre, le site cible mécanisme anti-escalade avec accrochage comme de plus en plus féroce. S'appuyer sur le changement d'IP n'est tout simplement pas suffisant pour voir, aujourd'hui pour vous enseigner une opération de tarte ---.Camouflage de l'en-tête de l'UA + combinaison d'une double épée pour l'IP du proxyEn particulier avec la famille ipipgo de proxies de haute sécurité, vous permettrez certainement à vos crawlers de se glisser sous le nez de vos sites cibles.
Pourquoi la tête de l'UA est-elle si importante ?
举个栗子,你穿着校服被逮的概率,肯定比穿便服高得多。网站就是通过UA头这个”校服”识别爬虫的。常见作死操作:
Cet en-tête UA par défaut est exposé en quelques minutes
curl http://example.com
Les dernières données d'un site de commerce électronique montrent que les requêtes avec l'en-tête curlUA par défaut qui78.61 TP3T sera directement interceptéJe ne dirai rien à ce sujet. Ce n'est pas n'importe quoi, la semaine dernière il y a un copain qui fait un logiciel de comparaison de prix, après avoir changé le proxy d'ipipgo + le camouflage UA, le taux de réussite de la demande est passé directement de 19% à 93% a grimpé en flèche.
Curl set UA header manuel pratique
Voilà l'essentiel ! Souvenez-vous de ce modèle universel :
curl -H "User-Agent : Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0 .864.59"
--proxy http://username:password@gateway.ipipgo.com:9021
http://target-site.com
Il convient de noter trois points essentiels :
- La tête de l'UA à choisirLes cinq premiers en termes de parts de marchéVersion du navigateur (ne pas utiliser l'ancienne version)
- Le mandataire doit utiliser l'optionType très anonyme(le proxy tunnel d'ipipgo est doté de cet attribut)
- N'oubliez pas de modifier régulièrement le numéro de version mineure du navigateur dans la chaîne UA.
Guide de sélection de la propriété intellectuelle par procuration pour éviter les pièges
| Type d'agent | anonymat | Scénarios applicables |
|---|---|---|
| Agent transparent | série (coureurs) | Il est pratiquement inutile. |
| Généralités anonymes | Met en évidence l'utilisation de proxys | navigation générale |
| High Stash Agent (recommander ipipgo) | Invisibilité totale | Crawler/collecte de données |
Se concentrer sur l'action d'ipipgoAgent de tunnel dynamiqueLa famille tournera automatiquement l'exportation IP, avec le camouflage UA est tout simplement un partenaire en or. Le test réel avec son agent + le programme de paramétrage UA de cet article, 500 demandes consécutives n'ont pas déclenché le contrôle du vent.
Questions fréquemment posées Trousse de premiers secours
Q : L'en-tête UA est-il correctement défini ou est-il encore reconnu ?
R : vérifiez trois points : 1. s'il y a des cookies 2. si la fréquence des demandes est trop élevée 3. si l'adresse IP du proxy est marquée (il est recommandé d'utiliser le pool d'adresses IP exclusives d'ipipgo)
Q : Comment capturer les données sur mon téléphone portable ?
R : Changez l'en-tête UA pour un style mobile, par exemple :
curl -H "User-Agent : Mozilla/5.0 (iPhone ; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148" ...
Q : Comment puis-je accéder au proxy ipipgo ?
R : Créez un tunnel proxy dans leur backend et vous obtiendrez l'adresse de connexion exclusive dans le format habituel :
http://[nom d'utilisateur] :[mot de passe]@gateway.ipipgo.com :[port]
La solution de défense ultime
Pour une invisibilité totale, souvenez-vous de cette formule :
En-tête UA dynamique + proxy ipipgo high stash + intervalle de requête aléatoire
Une implémentation spécifique permet d'écrire une rotation aléatoire du pool UA, voici un exemple de script bash :
! /bin/bash
UA_LIST=(
"Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit/537.36..."
"Mozilla/5.0 (Macintosh ; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15..."
"Mozilla/5.0 (X11 ; Linux x86_64) AppleWebKit/537.36..."
)
while true ; do
RANDOM_UA=${UA_LIST[$RANDOM % ${UA_LIST[@]}]}
curl -H "User-Agent : $RANDOM_UA"
--proxy http://ipipgo_proxy_credentials@gateway.ipipgo.com:9021
-L "http://target-site.com"
sleep $((RANDOM % 5 + 2))
sleep $((RANDOM % 5 + 2))
Ce programme peut être testé pour contourner l'anti-escalade habituelle 99%, avec les millions de pools d'adresses IP d'ipipgo, la collecte de données à grande échelle n'est pas à craindre. Récemment, il y a eu une équipe de surveillance des prix du commerce électronique, dont le volume quotidien de requêtes a dépassé un million de fois, et qui a fonctionné de manière stable pendant trois mois.

