
I. Pourquoi jeter l'en-tête de requête curl ?
Beaucoup de partenaires dans l'utilisation de curl pour faire de la capture de données, ont souvent rencontré le site qui renvoie l'erreur 403. C'est aussi frustrant que d'aller au supermarché pour acheter quelque chose et d'être arrêté à la porte...Le serveur ne pense pas que vous êtes réel.. Les sites web sont aujourd'hui équipés de systèmes de contrôle intelligents qui vérifient si l'en-tête de votre requête correspond à ce qu'un navigateur accèderait normalement.
Par exemple, si vous accédez à un site web à l'aide de la commande curl, l'agent utilisateur par défaut ressemble à ceci :
curl/7.68.0
Il dit au serveur que vous êtes un robot ! Nous devons lui donnerSe maquiller.qui se fait passer pour un navigateur Chrome ou Firefox.
Deuxièmement, nous allons vous apprendre l'en-tête de requête curl cosmétique.
Tout d'abord, quelques paramètres d'en-tête de requête couramment utilisés, à noter dans un petit carnet :
| en-tête de la demande | Exemple de navigateur sérieux |
|---|---|
| User-Agent | Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit/537.36... |
| Accepter | text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8 |
| Acceptation de la langue | zh-CN,zh;q=0.9,en;q=0.8 |
La commande se présente comme suit (Focus sur les paramètres -H) :
curl -H "User-Agent : Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64)..."
-H "Accept-Language : zh-CN,zh;q=0.9"
https://目标网站.com
Troisièmement, avec l'agent ipipgo, de meilleurs résultats
Modifier l'en-tête de requête ne suffit parfois pas, certains sites sont rancuniers -Le même accès IP trop souvent bloquéLa meilleure façon de le faire est de sortir notre service proxy ipipgo qui tue. C'est le moment de sortir notre service proxy ipipgo qui tue.
Ajoutez un paramètre -proxy à la commande et le tour est joué :
curl --proxy http://username:password@gateway.ipipgo.com:9020
-H "User-Agent : proper browser UA"
https://目标网站.com
ipipgo's.Agents résidentiels dynamiquesParticulièrement bien, chaque demande change automatiquement d'IP, joue à cache-cache avec le site. Ils disposent également d'un mécanisme spécial anti-escalade pour l'optimisation de la chaîne, testé un certain Est et un certain trésor ne déclenchera pas la vérification.
IV. lignes directrices pour le sauvetage des cas de renversement les plus courants
AQ 1 : Pourquoi le système renvoie-t-il toujours 403 alors que l'en-tête de requête est défini ?
→ Vérifiez que le paramètre Accept-Encoding n'est pas manquant, certains sites vérifient ce paramètre. Essayez d'ajouter -H "Accept-Encoding : gzip, deflate, br".
AQ 2 : Que faire si l'agent ne peut pas se connecter ?
→ 先用curl –proxy访问ipipgo的IP检测接口,看看返回的出口IP对不对。如果超时,可能是防火拦了,换个端口试试
AQ 3 : Que faire si je veux rester connecté ?
→ N'oubliez pas d'emporter l'en-tête Cookie avec vous, avec -H "Cookie : your login credentials". Il est recommandé de copier le cookie avec les outils de développement après s'être connecté au navigateur.
V. Conseils essentiels pour les joueurs seniors
Lorsque vous rencontrez un site particulièrement difficile, vous pouvez proposer un grand coup - leEn-tête de la demande de randomisationVoici un exemple de la manière de procéder. Écrire un script shell pour combiner aléatoirement les paramètres UA et de langue de différents navigateurs à chaque fois, avec la fonction de changement automatique d'IP d'ipipgo, pour réaliser parfaitement l'accès furtif.
Voici un exemple d'une version simple du script :
! /bin/bash
UA_LIST=("Mozilla/5.0 (Windows)...") "Mozilla/5.0 (Macintosh)...")
RANDOM_UA=${UA_LIST[$RANDOM % ${UA_LIST[@]}]}
curl --proxy http://ipipgo代理地址
-H "User-Agent : $RANDOM_UA"
-H "Accept-Language : zh-CN,en;q=0.$(($RANDOM%3+5))"
https://目标网站.com
Enfin, n'oubliez pas de respecter les conditions d'utilisation du site lorsque vous utilisez un proxy. ipipgo respecte tous ses nœuds !Nettoyer la réserve d'adresses IPIl est facile à utiliser et les nouveaux utilisateurs bénéficient d'un dosage de test, nous recommandons donc d'essayer avant d'acheter.

