
Apprendre à utiliser curl pour jouer avec les requêtes de proxy IP.
Les crawlers doivent savoir que le vieux fer à repasser, avec curl direct request site est comme une course nue - minutes par le site cible bannir l'IP. cette fois, vous avez besoin d'un proxy IP pour être votre gilet furtif, aujourd'hui nous prenons la ligne de commande artefact curl pour ouvrir le couteau, vous apprendre comment utiliser ipipgo proxy service pour s'engager en toute sécurité dans les données.
Guide d'utilisation de base de Curl
Commençons par un amuse-gueule : une requête curl normale ressemble à ceci :
curl https://example.com/api/data
Mais cela expose directement votre IP réelle, comme dans la salle en direct face plug-in ouvert, ne pas être bloqué seulement étrange. Cette fois-ci, nous devons sortir notreméthode de l'IP proxy.
Configuration du monde réel de l'IP proxy
Prenez le service proxy d'ipipgo comme exemple (leur pool d'IP dynamiques est vraiment solide), ajoutez un paramètre proxy à curl et partez :
curl -x http://username:password@proxy.ipipgo.io:8080 https://target-site.com
Trois points essentiels sont à noter ici :
1. sélection du protocole proxy http/https en fonction des exigences du fournisseur de services pour
2. le nom d'utilisateur et le mot de passe doivent utiliser le code d'autorisation donné par le backoffice d'ipipgo.
3. ne pas se tromper de numéro de port, qui peut être différent d'un paquet à l'autre.
| paramètres | instructions |
|---|---|
| -x / -proxy | adresse du serveur proxy |
| -U / -proxy-user | Informations d'authentification (la méthode @ est recommandée car elle est plus sûre) |
Avertissement sur les pièges à haute fréquence
Trois erreurs courantes commises par les débutants :
1. écrivez l'adresse proxy comme l'IP de votre propre routeur (quelle est la différence entre cela et le fait de ne pas porter de gilet)
2. oublier de remplacer nom d'utilisateur/mot de passe dans l'exemple (cela ne fonctionnera pas avec un faux mot de passe).
3. le manque d'attention aux limites de concurrence des paquets proxy (la concurrence d'ipipgo varie fortement d'un paquet à l'autre).
Amélioration des compétences pratiques
Lorsque vous devez changer d'IP, utilisez l'API d'ipipgo pour obtenir de nouveaux proxys en temps réel :
NEW_IP=$ (curl -s api.ipipgo.com/getproxy)
curl -x $NEW_IP https://target-site.com
Ajoutez l'en-tête de requête aléatoire pour plus d'assurance :
curl -x http://proxy.ipipgo.io -H "User-Agent : $(shuf -n 1 ua-list.txt)" https://target-site.com
Dépannage de l'AQ
Q : Que dois-je faire si la demande de procuration n'aboutit pas ?
R : vérifiez d'abord l'arrière-plan ipipgo du trafic restant, puis testez la valeur ping du serveur proxy, les différentes zones de la différence de latence du nœud sont nombreuses.
Q:Return 407 Agent Authentication Error ?
R : Quatre-vingt-dix pour cent du mot de passe du compte est erroné, le mot de passe ipipgo est sensible à la casse, il est recommandé de copier directement l'exemple de code de la console.
Q : Comment puis-je savoir si une procuration est en vigueur ?
R : Utilisez cette commande pour vérifier l'IP de sortie :
curl -x http://代理信息 -s ip.ipipgo.com/checkip
Conseils pour l'optimisation des performances
Requêtes concurrentes multithreads avec xargs pour tirer le meilleur parti de l'IP pooling d'ipipgo :
cat urls.txt | xargs -P 10 -I {} curl -x http://动态代理 -s {}
N'oubliez pas d'ajuster le nombre après -P, ne dépassez pas le nombre maximum de concurrences autorisé par le paquet ou vous serez automatiquement limité par le système d'ipipgo.
Enfin, à titre anecdotique, ipipgo a récemment ajouté la nouvelle fonctionforfait de paiement à l'utilisationLa première est qu'il n'est pas nécessaire d'attacher la carte pour l'utiliser, ce qui est particulièrement adapté au vieil homme qui fait des projets de crawler à court terme. Leur agent résidentiel pour jouer le code de vérification taux de réussite est super élevé, personnellement testé que l'IP est beaucoup plus stable, il est nécessaire d'aller directement sur le site officiel pour saccader les heures de test.

