
Comment jouer avec les données IP d'un proxy ? Apprentissage pratique du démontage du format JSON
Les amis qui s'engagent dans le crawling comprennent que de nombreux fournisseurs de services proxy renvoient désormais les données au format JSON. Cette chose ressemble à un livre, en fait, il est plus simple de la démonter que d'éplucher des oranges. Prenons la réponse de l'API d'ipipgo comme un marronnier, leurs données de retour sont longues comme ceci :
{
"code" : 200,
"data" : [
{
"ip" : "45.88.123.88",
"port" : 8866, "expire_time" : "2024-08-01 23:59
"expire_time" : "2024-08-01 23:59:59"
},
{
"ip" : "103.88.45.12",
"port" : 3128, { "expire_time" : "expire_time" : "2024-08-01 23:59:59" }, { "ip" : "103.88.45.12", { "port" : "3128,
"expire_time" : "2024-08-02 00:30:00"
}
]
}
se concentrer surtableau de donnéesL'adresse, le port et le délai d'expiration de chaque objet, de chaque adresse IP et de chaque adresse IP se trouvent ici. En Python, la bibliothèque json n'est qu'à trois lignes de code :
import json
resp = 'ces données JSON ci-dessus'
proxy_list = json.loads(resp)['data']
Enseignement pratique : de l'obtention de la propriété intellectuelle à son utilisation réelle
Ne vous contentez pas de savoir comment analyser sans l'utiliser ! En supposant que nous ayons obtenu une liste de proxies via l'API ipipgo, nous devons en vérifier la validité. Voici un script de validation universel :
demandes d'importation
pour proxy dans proxy_list.
try : response = requests.get('')
response = requests.get('http://httpbin.org/ip',
proxies={'http' : f"{proxy['ip']}:{proxy['port']}"},
timeout=5)
print(f "IPs disponibles : {proxy['ip']}:{proxy['port']}")
except.
print(f "Échec de l'IP : {proxy['ip']}")
Ce script permet de sélectionner rapidement les adresses IP qui fonctionnent.Fixer le délai d'attente à 5 secondesTrès approprié, trop court pour se tromper facilement, trop long pour retarder les choses.
Pourquoi recommandez-vous les services d'ipipgo ?
Après avoir utilisé sept ou huit fournisseurs de proxy, ce n'est pas pour rien que j'ai fini par verrouiller ipipgo. Trois de leurs cascades sont particulièrement réussies :
1. le seau de la famille de protocolesLa prise en charge de HTTP/HTTPS/Socks5 est totale, contrairement à certaines plates-formes qui n'ouvrent qu'à moitié la porte.
2. extraction sans effortL'API est conçue pour être conviviale et le format de retour est très standard.
3. les colis ne sont pas frauduleuxLa collecte de données résidentielle dynamique est absolument abordable, avec un minimum de 7 yuans pour un trafic supérieur à 1G !
| Type d'emballage | Scénarios applicables | prix |
|---|---|---|
| Dynamique résidentielle (standard) | Collecte quotidienne de données | 7,67 $/GB |
| Dynamic Residential (Entreprise) | Exigences opérationnelles en matière de haute fréquence | 9,47 Yuan/GB |
| Maisons statiques | Besoins fixes à long terme en matière de propriété intellectuelle | 35 $/mois |
Questions fréquemment posées
Q : Dois-je écrire du code pour analyser les données JSON ?
R : Pas absolument ! Il est possible d'analyser manuellement avec un outil comme Postman, mais il est plus efficace d'écrire un script pour le traitement par lots.
Q : Comment puis-je savoir si la période d'enquête peut être utilisée après l'extraction de l'API ?
R : Le client d'ipipgo est doté d'une fonction de détection, ou exécutez le script de vérification enseigné ci-dessus.
Q : Dois-je choisir un paquet dynamique ou statique ?
R : Cela dépend du scénario de l'entreprise. Il est plus rentable de choisir un site dynamique pour les robots d'indexation et un site résidentiel statique pour les personnes qui doivent se connecter pendant une longue période.
Enfin, pour être honnête, l'histoire de l'IP proxy est due pour trois parties à l'outil et pour sept parties au fournisseur de services. ipipgo'sLigne TKrépondre en chantantIntégration des serveurs en nuageIl est vraiment parfumé, en particulier pour les frères qui font des affaires à l'étranger, la ligne transfrontalière peut épargner beaucoup d'ennuis. Il est conseillé aux nouveaux utilisateurs d'utiliser d'abord la version standard dynamique pour essayer l'eau, puis de passer à la version entreprise après une longue période d'utilisation, afin d'obtenir le meilleur rapport coût-efficacité.

