
Formation pratique à l'utilisation de curl et des données de crawl anti-blocage de Header
Récemment, quelques vieux briscards m'ont demandé, avec des données curl crawl anciennes par le site bloqué IP comment faire ? Aujourd'hui, nous allons nous pencher sur la question. Concentrez-vous sur une astuce difficile...En-tête personnalisé + IP ProxyDes combinaisons dont l'efficacité a été testée.
Tout d'abord, un cas réel : un script de surveillance des prix d'une plateforme de commerce électronique, avec une requête curl ordinaire de moins d'une demi-heure à bannir. Ensuite, l'en-tête de la requête avec les caractéristiques du navigateur, et avec le pool de proxy dynamique d'ipipgo, fonctionne pendant trois jours sans problème. Voici comment procéder.
La position correcte du curl plus Header
Commençons par une scène typique de renversement :
curl https://目标网站.com
Avec ce type de requête, le serveur sait d'emblée qu'il s'agit d'un robot qui fait quelque chose. Nous devonsMettre un gilet à la boucle.: :
curl -H "User-Agent : Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit/537.36" -H "Accept-Language : zh-CN,zh;q=0.9" -H "Referer : https://www.google.com/" https://目标网站.com
Notez les trois en-têtes clés :
| Nom de l'en-tête | correspond à l'anglais -ity, -ism, -ization | valeur de l'exemple |
|---|---|---|
| User-Agent | Faux navigateur | Dernière version de Chrome ou de Firefox |
| Acceptation de la langue | Paramètres linguistiques | zh-CN première |
| Référent | page source | Simuler un saut dans un moteur de recherche |
La bonne façon d'ouvrir un proxy IP
Il ne suffit pas de changer l'en-tête, il faut travailler avec une IP proxy pour pouvoirinvisibilité totaleLa première chose à faire est d'utiliser le service d'ipipgo. Nous recommandons ici d'utiliser les services d'ipipgo, qui dispose d'un paquet spécial anti-blocage. Voir l'utilisation spécifique :
curl -x http://用户名:密码@proxy.ipipgo.com:端口号 -H "User-Agent : Mozilla/5.0..." https://目标网站.com
Attention à ces deux nids-de-poule :
- N'utilisez pas de proxies gratuits, 99% sont tous des pools d'IP publics, le site a été débranché il y a longtemps !
- Les proxys résidentiels sont plus insidieux que les proxys de salles de serveurs, les proxys d'ipipgo...IP résidentielle dynamiqueTaux de réussite plus élevé pour les paquets
Guide pratique pour éviter la fosse
L'interdiction la plus étrange que j'aie jamais rencontrée : un site qui détecte les paramètres de rendu des polices dans les cookies ! Voici quelques actions honteuses à partager :
- Remplacer régulièrement les en-têtes dans leAccept-Encodingêtre en service
- Insérer de manière aléatoire dans l'en-tête de la requête des champs légaux mais dépourvus de sens, tels queX-Requested-With : XMLHttpRequest
- Avec ipipgo.maintien de la sessionFonctions permettant de maintenir une fréquence d'accès raisonnable pour la même IP
Foire aux questions QA
Q : Que dois-je faire si je suis toujours bloqué après avoir ajouté l'en-tête ?
R : Vérifiez si le champ Cache-Control est manquant, il est recommandé de l'ajouter.Cache-Control : max-age=0Simuler le comportement du navigateur
Q : Comment résoudre le problème de la lenteur de la vitesse IP du proxy ?
A : ipipgo'sRoutage intelligentsélectionne automatiquement le nœud le plus rapide, ou vous pouvez suivre la commande curl avec-m 30Réglage du délai d'attente
Q : Que se passe-t-il si je dois traiter des cookies ?
A : Commencez par la boucle-c cookie.txtpour enregistrer le cookie et l'apporter lors des demandes suivantes-b cookie.txt
Le programme ultime de préservation de la vie
Enfin un modèle universel, n'oubliez pas de le remplacer par votre compte ipipgo :
curl -x http://vipuser:123456@proxy.ipipgo.com:8899 -H "User-Agent : Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit/537.36" -H "Accept : text/html,application/xhtml+xml" -H "Accept-Encoding : text/html,application/xhtml+xml" -H "Accept-Encoding : gzip, deflate, br" --compressé https://目标网站.com
Ce modèle comporte trois éléments clés :
- L'utilisation de l'outilCanal des agents d'entreprise
- Emule toutes les fonctionnalités du navigateur
- Activer la transmission comprimée pour réduire le trafic
Si vous rencontrez un site web particulièrement difficile, vous pouvez contacter le support technique d'ipipgo pour le personnaliser !Programme de lutte contre l'escaladeLeurs ingénieurs ont eu recours à toutes sortes de tactiques anti-escalade, comme l'authentification par empreinte TLS ou la détection par empreinte du navigateur.

