
Pratique de l'IP proxy avec l'en-tête Accept de cURL
Les personnes engagées dans l'exploration des données savent que certains sites sont des voleurs et qu'il ne suffit pas d'utiliser l'adresse IP du proxy, il faut aussi que l'en-tête de la requête contienne des personnes réelles qui visitent le même site. Aujourd'hui, nous allons voir comment utiliser le service proxy d'ipipgo pour une requête cURL.Enfilez le gilet pare-balles..
Pourquoi jeter la tête d'acceptation ?
De nombreux sites web ont désormais installé des "barrières de sécurité" pour vérifier l'identité des demandes. En voici un exemple :
- avec l'en-tête d'acceptation par défaut (/), directement comme un robot bloquant l'accès à la page d'accueil.
- Les valeurs d'acceptation pour le mobile et le web sont différentes, il est donc possible de les confondre.
- Certaines interfaces API doivent spécifier un type MIME spécifique
L'année dernière, lorsque j'ai aidé mon ami à comparer le commerce électronique, parce que l'en-tête d'Accept n'était pas correct, j'ai même changé trois adresses IP de proxy, et je n'ai découvert que plus tard que c'était l'information de l'en-tête qui était en cause.
Quatre étapes vers le combat réel
Tout d'abord, assurez-vous que vous avez cURL sur votre ordinateur, si ce n'est pas le cas, allez sur le site officiel pour obtenir la dernière version. Utilisez le proxy d'ipipgo comme démo ici, leur pool d'IP dynamiques est assez grand, il n'est pas facile d'être banni.
Modèle de base (n'oubliez pas de le remplacer par le mot de passe de votre propre compte)
curl -x http://username:password@gateway.ipipgo.com:9021
-H "Accept : text/html,application/xhtml+xml,application/xml;q=0.9"
https://目标网站.com
Version spécifique aux téléphones portables
curl -x http://username:password@gateway.ipipgo.com:9021
-H "Accept : application/json, text/javascript, / ; q=0.01"
https://m.目标网站.com
Comment choisir les paramètres sans les piétiner ?
| prendre | Valeur d'acceptation | Sites web concernés |
|---|---|---|
| Pages web générales | text/html,application/xhtml+xml | portail web |
| Interface API | application/json | interface de données |
| Ressources photographiques | image/webp,image/apng | Sites de la galerie |
Scène de renversement courante AQ
Q : L'en-tête Accept est-il toujours reconnu ?
A : 80% des autres informations d'en-tête sont manquantes, n'oubliez pas d'indiquer User-Agent, Referer ainsi que la correspondance complète !
Q : Le proxy d'ipipgo ne peut soudainement plus se connecter ?
R : Vérifiez d'abord la validité du compte, les forfaits sont facturés à l'heure, si le solde est insuffisant, le service s'arrêtera automatiquement. Ensuite, essayez de changer le port alternatif, 9021-9030 sont pris en charge !
Q : Dois-je changer fréquemment la tête d'acceptation ?
R : Examinez la stratégie du site cible, généralement le même type de page avec la même valeur sur la ligne. Si vous n'êtes pas sûr, vous pouvez utiliser l'outil de développement de votre navigateur pour récupérer un véritable en-tête de requête et le copier.
Pourquoi recommandez-vous ipipgo ?
Après avoir fait appel à son agent au cours des deux dernières années, trois éléments ont été mis en lumière :
- Le pool d'IP est automatiquement actualisé toutes les heures, contrairement à certains fournisseurs de services qui ne changent pas d'IP pendant trois jours.
- soutienpaiement au volumeIl est particulièrement rentable pour les petits crawlers.
- La réponse du service clientèle est rapide, la dernière fois que j'ai rencontré des problèmes avec le code de vérification, à 2 heures du matin, on m'a renvoyé le bon de travail !
Depuis peu, les nouveaux utilisateurs reçoivent également un pack de trafic 5G pour s'inscrire, suffisant pour tester pendant la majeure partie du mois.
Enfin, l'appariement des serveurs mandataires n'est pas une panacée. Comme Accept head, de tels détails sont bien gérés, couplés à un service proxy fiable, afin de permettre au crawler de fonctionner de manière stable et rapide. Rencontrer des problèmes étranges ne meurt pas, plus que quelques IP essayer, ipipgo arrière-plan peut voir l'état de la connexion en temps réel, cette fonctionnalité est vraiment pratique.

