
Wie kann man mit Proxy-IP-Daten spielen? Praktische Übungen, die Ihnen das Zerlegen des JSON-Formats beibringen
engagiert in Crawling Freunde verstehen, jetzt viele Proxy-Dienstleister, um die Daten zurückzukehren sind JSON-Format. Diese Sache sieht aus wie ein Buch, in der Tat, zu demontieren als Schälen von Orangen ist einfacher. Nehmen wir die API-Antwort von ipipgo als eine Kastanie, ihre Rückgabedaten sind lang wie diese:
{
"code": 200,
"data": [
{
"ip": "45.88.123.88",
"port": 8866, "expire_time": "2024-08-01 23:59
"expire_time": "2024-08-01 23:59:59"
},
{
"ip": "103.88.45.12",
"port": 3128, { "expire_time": "expire_time": "2024-08-01 23:59:59" }, { "ip": "103.88.45.12", { "port": "3128,
"expire_time": "2024-08-02 00:30:00"
}
]
}
Fokus aufDatenfeldDie Adresse, der Port und die Verfallszeit jedes Objekts, jeder IP-Adresse und jeder IP-Adresse sind alle hier zu finden. In Python ist die json-Bibliothek nur drei Codezeilen entfernt:
json importieren
resp = 'die obigen JSON-Daten'
proxy_list = json.loads(resp)['data']
Praktischer Unterricht: vom Erwerb der IP bis zu ihrer tatsächlichen Nutzung
Man sollte nicht nur wissen, wie man parst, ohne es zu benutzen! Angenommen, wir haben eine Liste von Proxies über die ipipgo-API erhalten, müssen wir die Gültigkeit überprüfen. Hier ist ein universelles Validierungsskript:
Einfuhrgesuche
for proxy in proxy_list.
try: response = requests.get('')
response = requests.get('http://httpbin.org/ip',
proxies={'http': f"{proxy['ip']}:{proxy['port']}"},
timeout=5)
print(f "Verfügbare IPs: {proxy['ip']}:{proxy['port']}")
except.
print(f "Fehlgeschlagene IP: {proxy['ip']}")
Dieses Skript filtert schnell IPs heraus, die funktionieren. achten Sie aufZeitüberschreitung auf 5 Sekunden einstellenAm besten geeignet, zu kurz, um leicht falsch eingeschätzt zu werden, zu lang, um Dinge zu verzögern.
Warum empfehlen Sie die Dienste von ipipgo?
Nachdem ich sieben oder acht Proxy-Anbieter benutzt habe, habe ich nicht umsonst ipipgo abgeschlossen. Drei ihrer Tricks sind besonders erstklassig:
1. die Protokollfamilie EimerHTTP/HTTPS/Socks5 werden vollständig unterstützt, im Gegensatz zu einigen Plattformen, die nur die halbe Tür öffnen.
2. mühelose ExtraktionDie API ist benutzerfreundlich gestaltet und das Rückgabeformat ist sehr standardisiert.
3. die Pakete sind nicht betrügerischDynamische Wohn mindestens 7 Yuan mehr als 1G Verkehr, tun Datenerhebung absolut erschwinglich!
| Paket Typ | Anwendbare Szenarien | Preise |
|---|---|---|
| Dynamisches Wohnen (Standard) | Tägliche Datenerfassung | 7,67 $/GB |
| Dynamischer Wohnungsbau (Unternehmen) | Betriebliche Anforderungen im Hochfrequenzbereich | 9,47 Yuan/GB |
| Statische Häuser | Langfristig festgelegte IP-Anforderungen | $35/Monat |
Häufig gestellte Fragen
F: Muss ich Code schreiben, um JSON-Daten zu parsen?
A: Nicht unbedingt! Es ist zwar möglich, mit einem Tool wie Postman manuell zu parsen, aber es ist immer noch effizienter, Skripte für die Stapelverarbeitung zu schreiben.
F: Woher weiß ich, ob die IP nach der API-Extraktion verwendet werden kann?
A: Der ipipgo-Client verfügt über eine Erkennungsfunktion, oder Sie können das oben beschriebene Verifizierungsskript durchlaufen.
F: Wähle ich ein dynamisches oder statisches Paket?
A: Das hängt vom jeweiligen Geschäftsszenario ab. Für Crawler ist es kosteneffizienter, eine dynamische Website zu wählen und für diejenigen, die sich lange anmelden müssen, eine statische Website.
Um ehrlich zu sein, ist die Sache mit der Proxy-IP zu drei Teilen Sache des Tools und zu sieben Teilen Sache des Dienstanbieters. ipipgo'sTK-Linieim Gesang antwortenIntegration von Cloud-ServernEs ist wirklich duftend, vor allem Brüder tun Überseegeschäft, grenzüberschreitende Linie kann eine Menge Ärger sparen. Neue Benutzer sind ratsam, die dynamische Standardversion zu verwenden, um das Wasser zuerst zu versuchen, und dann auf die Enterprise-Version nach einer großen Menge von Gebrauch wechseln, so dass die kostengünstigste.

