
Apprendre à utiliser cURL pour accrocher le proxy afin d'obtenir des données
Les crawlers doivent comprendre que l'ancien fer à repasser, l'accès direct et nu au site en quelques minutes sur l'IP bloquée. Cette fois, nous devons sacrifier l'IP proxy cette arme magique, aujourd'hui nous prenons le couteau suisse dans la ligne de commande cURL pour démontrer comment utiliser l'IP proxy pour saisir les données en toute sécurité.
Commençons par quelque chose de sec.L'adresse du serveur proxy pour ipipgo ressemble à cecihttp://username:password@gateway.ipipgo.com:8020 Remplacez simplement le nom d'utilisateur et le mot de passe par les informations d'authentification de votre compte. Notez bien cette adresse, vous devrez faire le test plus tard.
Configuration de l'agent Triple Axe
Lorsque vous tapez des commandes dans le terminal, ajoutez un champ-xsera en mesure d'accrocher le proxy. A titre d'exemple :
curl -x http://user123:pass456@gateway.ipipgo.com:8020 https://target-site.com/data.json
Voici un élément à garder à l'esprit.Trois points clésLe type de proxy doit être correct (http/https/socks5), le port ne doit pas être écrit de manière incorrecte et les informations d'authentification ne doivent pas être omises. Si le code d'erreur 407 est renvoyé, il est probable que le mot de passe du compte soit erroné.
| paramètres | correspond à l'anglais -ity, -ism, -ization | valeur de l'exemple |
|---|---|---|
| -x / -proxy | Spécifier un serveur proxy | http://user:pass@gateway.ipipgo.com:8020 |
| -U / -proxy-user | Définition individuelle des informations d'authentification | user:pass |
Mini-théâtre de capture du monde réel
Supposons que vous souhaitiez connaître le prix d'un site de commerce électronique.interface tachymètreChoisissez un nœud rapide :
curl -x http://user:pass@gateway.ipipgo.com:8020 https://speedtest.ipipgo.com/latency
Le fait que le temps de réponse soit inférieur à 200 ms indique que ce nœud est suffisamment rapide. Passons ensuite aux choses sérieuses :
curl -x http://user:pass@gateway.ipipgo.com:8020 -H "User-Agent : Mozilla/5.0" -L https://mall.com/product/12345 -o prix_donnees.html
mettre l'accent surN'oubliez pas d'ajouter le paramètre -L pour suivre automatiquement la redirection, et -o pour enregistrer le résultat dans un fichier. Si vous rencontrez une erreur de certificat, vous pouvez ajouter le paramètre -insecure pour ignorer la vérification, mais l'environnement formel doit être utilisé avec prudence.
Trousse de premiers secours pour les cas difficiles
Q : Que dois-je faire si je ne peux pas me connecter à l'agent ?
R : Commencez par envoyer un ping à gateway.ipipgo.com pour voir s'il passe, puis vérifiez la date d'expiration du compte. Recommandation pour l'utilisation de ipipgoInterface de détection de survie: : https://status.ipipgo.com/checkip
Q : Comment puis-je passer d'une IP régionale à une autre ?
R : Dans le panneau de configuration ipipgo, sélectionnez le point d'accès pour la région spécifiée, par exemple, si vous voulez le nœud de Shanghai, utilisez sh.gateway.ipipgo.com:8030, n'oubliez pas que les ports peuvent être différents selon les régions.
Q : Que dois-je faire si je suis fréquemment bloqué ?
R : Dans la commande cURL, ajoutez le paramètre -proxy-negotiate pour activer la commutation automatique, avec le service de rotation dynamique d'ipipgo, chaque minute change automatiquement l'IP, le débit mesuré peut être supérieur à 98%.
Conseils privés pour les connaisseurs
1. utiliser-connect-timeoutFixez un délai de 5 secondes, sans attendre que le nœud tombe en panne.
2. écrire le paramètre proxy dans le fichier de configuration ~/.curlrc, afin de ne pas avoir à taper la commande à chaque fois.
3) Lorsque vous avez besoin d'un proxy https, n'oubliez pas de changer l'en-tête de protocole en https://.
4. soutien de l'entreprise à l'ipipgoProxy d'acquisition dynamique APILe pool d'IP convient aux scénarios qui nécessitent un grand nombre de pools d'IP.
Enfin, anon, ipipgo a récemment été sur la liste desforfait de paiement à l'utilisationJe ne sais pas si vous êtes un nouvel utilisateur, mais j'aimerais vous donner un essai de 5G de trafic. La qualité de leur agent résidentiel est vraiment top, la dernière fois que j'ai ouvert 200 threads en même temps n'ont pas été bloqués, faire la collecte de données vieux frère peut essayer.

