
Que faire lorsqu'un crawler rencontre un anti-crawler ? Essayez ceci.
Les vieux ferrailleurs qui font de la collecte de données ont neuf fois sur dix rencontré 403 Forbidden, n'est-ce pas ? De nos jours, les sites web sont tellement intelligents qu'ils bloquent votre IP s'ils ne vous aiment pas.Proxy IP + En-tête personnaliséC'est le partenaire en or. Par exemple, avec le service proxy d'ipipgo, à chaque demande d'une nouvelle "armure", le site ne peut pas savoir s'il s'agit d'une personne ou d'une machine.
Apprentissage pratique du jeu de passe curl Header
Passons d'abord aux choses sérieuses, directement au code :
curl -x http://user:pass@proxy.ipipgo.cn:8080
-H "User-Agent : Mozilla/5.0 (Windows NT 10.0)"
-H "X-Requested-With : XMLHttpRequest"
https://target-site.com/api/data
VoiciLe paramètre -x spécifie le serveur proxyL'adresse proxy d'ipipgo doit être remplie avec le mot de passe de votre compte. Multiple Header écrira quelques -H supplémentaires, avec la chaîne qui ressemble à une gourde de sucre.
En-tête camouflage quatre diamants
Ce sont les paramètres qui fonctionnent le mieux :
- User-Agent (empreinte digitale de l'appareil)
- Accept-Language (préférence linguistique)
- Référent
- Cookies (identifiants de connexion)
Il est recommandé d'obtenir un fichier de configuration pour stocker les combinaisons courantes, par exemple :
{
"mobile" : {
"User-Agent" : "Mozilla/5.0 (iPhone ; CPU iPhone OS 14_7 like Mac OS X)",
"Accept" : "application/json"
},
"pc" : {
"User-Agent" : "Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64)", "Accept-Language" : {
"Accept-Language" : "zh-CN,zh;q=0.9"
}
}
Rotation dynamique de l'en-tête Noir
Si vous utilisez toujours un en-tête fixe, vous vous ferez toujours prendre, et il est temps de passer à l'étape suivante, à savoir l'utilisation d'ipipgo.Pool IP dynamiqueL'effet peut être comparé aux soixante-douze changements du Roi Singe. Avec le script qui change aléatoirement d'en-tête, l'effet est comparable aux 72 changements du Roi Singe :
headers_list = [
{"User-Agent" : "Mozilla/5.0 (Macintosh ; Intel Mac OS X 10_15_7)"},
{"User-Agent" : "Opera/9.80 (Windows NT 6.1 ; U ; en) Presto/2.7.62"}, {"User-Agent" : "Opera/9.80 (Windows NT 6.1 ; U ; en)
{"User-Agent" : "Mozilla/5.0 (X11 ; Linux x86_64) AppleWebKit/537.36"}.
]
proxy = "http://user:pass@proxy.ipipgo.cn:3000"
curl -x $proxy -H "${headers_list[$RANDOM % 3]}" https://xxx.com
Guide pratique pour éviter la fosse
Certains sites détectent l'ordre de l'en-tête, mais il ne faut pas croire qu'il suffit de l'écrire. Il est recommandé d'utiliser le navigateur pour visiter le site normalement, de saisir le paquet pour voir la demande originale de l'ordre de l'en-tête, selon le chat qui dessine le tigre est le plus sûr.
| mauvaise posture | une posture correcte |
|---|---|
| Type de contenu manquant | Réglage par type d'interface |
| jeu de caractères non permanent | UTF-8 unifié |
| horodatage non conventionnel | Maintien de la cohérence des fuseaux horaires |
séance de questions-réponses
Q : Que dois-je faire si je suis toujours banni après avoir ajouté un en-tête ?
A : Essayez ipipgo'sAgents à forte valeur ajoutéeSi vous ne souhaitez pas masquer complètement l'adresse IP d'origine, vérifiez si le cookie a expiré ou s'il est trop fréquent.
Q : Qu'y a-t-il de mal à devoir s'occuper de cookies ?
R : Utilisez curl -c pour enregistrer d'abord le fichier cookie, puis ajoutez le paramètre -b aux requêtes suivantes :
curl -x http://proxy.ipipgo.cn -c cookies.txt -b cookies.txt https://xxx.com/login
Q : Pourquoi la réponse est-elle plus lente après l'utilisation d'un proxy ?
R : Il peut s'agir d'un problème de ligne de nœud, d'un commutateur dans l'arrière-plan de l'ipipgo.Ligne hybride BGPChoisissez une salle de serveurs qui se trouve physiquement à proximité.
La solution ultime
En fin de compte, si vous voulez être stable dans la collecte des données.Paquets de proxy commerciaux d'ipipgoC'est la voie royale. Pool IP exclusif + commutation de route intelligente + camouflage automatique de l'en-tête, solution trois en un. Les nouveaux utilisateurs recevront 200M de trafic d'essai, il n'est pas bon d'utiliser la brique directe.
Enfin, un petit mot : le camouflage des têtes n'est pas une panacée, avec un intervalle de demande raisonnable. Tout comme manger un barbecue avec de la bière, boire de la bière seule n'a pas le même goût, n'est-ce pas ?

