
Pratique du masquage de l'en-tête de requête avec curl
Les personnes qui utilisent curl pour saisir des données ne sont pas souvent confrontées au fait que le site web n'est pas en mesure de fournir une réponse. C'est une chose que j'ai rencontrée tous les jours lorsque je surveillais les prix du commerce électronique l'année dernière. Plus tard, j'ai constaté queNe pas déguiser une tête de requête, c'est comme surfer nu sur le net.Le site web peut vous reconnaître en tant que crawler au premier coup d'œil. Aujourd'hui, nous allons voir comment utiliser l'IP proxy avec l'en-tête curl set request, en nous concentrant sur la maison recommandée avec l'outil pratiqueipipgoServices de l'agence.
Pourquoi jeter l'en-tête de la requête ?
举个实际例子:去年双十一我想抓某平台的促销数据,用自己电脑的IP,刚发几个请求就被封。后来给curl挂上ipipgo的动态住宅代理,再改下UA和Referer,连续跑了3天都没事。这就像Porter un masque de peau humaine à un bal masqué.Le site web ne reconnaît même pas qui vous êtes.
curl définit les paramètres de base de l'en-tête de la requête
N'oubliez pas ces trois changements obligatoires :
– -H "User-Agent : ..."(empreintes de l'équipement)
– -H "Referer : ..."(page entrante)
– -x Adresse du serveur proxy(Proposition de proxy socks5 avec ipipgo)
L'ordre réel est le suivant :
curl -x socks5://user:pass@gateway.ipipgo.io:20000 -H "User-Agent : Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit/537.36" -H "Referer : https://www.example.com/product/123" https://target-site.com/data
Sélection de l'IP proxy avec précaution
Après avoir utilisé 7 ou 8 fournisseurs de services proxy, j'ai finalement opté pour ipipgo pour deux raisons principales :
1. le parc d'adresses IP résidentielles est suffisamment important (j'ai entendu parler de 20 millions et plus)
2. maintien automatique de la session (particulièrement utile lors d'opérations nécessitant une connexion)
Faites attention au format de leur adresse proxy :passerelle.ipipgo.io Ce domaine est une entrée fixe, ne l'utilisez pas à tort.
Scène de renversement courante AQ
Q : Que dois-je faire si l'ordre des paramètres est toujours inversé ?
R : Souvenez-vous de la mnémonique : les paramètres du proxy (-x) en haut, les informations d'en-tête (-H) au milieu de la ligne, l'URL cible en dernier avec l'attribut
Q : UA utilise-t-il la version mobile ou la version pour ordinateur ?
R : Examinez la source de trafic du site web cible, la classe e-commerce a plus d'UA de téléphone mobile, le site web officiel de l'entreprise a plus d'UA de PC. ipipgo background a une bibliothèque d'UA prête à l'emploi qui peut être directement copiée !
Q : Comment l'en-tête de requête dynamique est-il mis en œuvre ?
R : Nous recommandons d'utiliser la fonction de routage intelligent d'ipipgo, qui permet d'alterner automatiquement UA et Referer, ce qui permet d'économiser beaucoup plus de travail que d'écrire des scripts soi-même !
Guide pour éviter la fosse
J'ai récemment découvert que certains sites web détectent lesIntégrité de l'en-têteLa semaine dernière, un client a omis d'ajouter l'en-tête Accept-Language. La semaine dernière, un client est tombé sur l'en-tête Accept-Language qui n'a pas été ajouté, bien que tous les autres paramètres soient corrects, mais il a tout de même été identifié comme un robot. Il est recommandé d'utiliser la fonction de vérification de l'en-tête de requête d'ipipgo pour compléter automatiquement les paramètres nécessaires.
Enfin, une connaissance froide : n'oubliez pas de désactiver les paramètres proxy du système lors de l'utilisation de l'IP proxy ! Après avoir débogué pendant une demi-journée sans résultat, j'ai finalement découvert que l'ordinateur sur le proxy global, deux proxies conduisent à un dépassement de délai, cette erreur de bas niveau ne se produit pas.

