
Wir zeigen Ihnen, wie Sie Proxy-IP-Daten von Hand in eine CSV-Datei konvertieren können!
Die alten Eisen, die sich mit der Datenerfassung beschäftigen, wissen, dass die Proxy-IP auslaufen, um sie zu speichern und zu analysieren. Aber viele Tools führen aus dem Format ist unordentlich, heute lehren Sie Python ganze Arbeit zu verwenden, die Proxy-IP-Daten in eine klare, direkte CSV-Form verpackt zu nehmen.
Bereiten Sie Ihr Kit vor der Sammlung vor
Es ist wichtig, einen Proxy-IP-Dienst zur Verfügung zu haben, hier sind einige Empfehlungenipipgo's Dynamic Residential (Standard) PaketDie erste ist nicht teuer, mehr als $7 für 1 G Verkehr ist genug. Ihre API-Aufruf ist besonders einfach, erhalten die Daten lang wie diese:
{
"ip": "123.123.123.123",
"port": "8888",
"expire_time": "2024-01-01 12:00",
"location": "United States Texas"
}
Achten Sie darauf, ob die Felder vollständig sind, manche Dienstleister geben die Daten mit fehlenden Armen und Beinen an, die spätere Bearbeitung wird dadurch verrückt.
Drei Schritte zur Akquisition in der Praxis
Schreiben wir ein einfaches Skript in Python und denken wir daran, dieAnfragenim Gesang antwortenPandasDiese beiden Bibliotheken:
Anfragen importieren
importiere pandas as pd
Schnittstelle zum Abrufen von Daten von ipipgo (ändern Sie die eigentliche API selbst)
api_url = "https://api.ipipgo.com/get_proxy"
resp = requests.get(api_url)
raw_data = resp.json()
Highlights! Die Daten reduzieren und ordnen
clean_data = []
for item in raw_data['proxies']:
clean_data.append({
IP-Adresse': item['ip'],
port number': str(item['port']), String in fehlerfreien String umwandeln
expiration_time': item['expire_time'],
'ort': item['ort'].split()[0] so lange wie Land
})
Zeit für den Zaubertrick
df = pd.DataFrame(clean_data)
df.to_csv('Proxy IP List.csv', index=False, encoding='utf-8-sig')
Nach der Ausführung des Skripts wird das aktuelle Verzeichnis angezeigtListe der Proxy-IPs.csvöffnen Sie sie in Excel, und sie sieht wie folgt aus:
| IP-Adresse | Portnummer | Verfallsdatum | Website |
|---|---|---|---|
| 123.123.123.123 | 8888 | 2024-01-01 12:00 | Vereinigte Staaten von Amerika |
Leitfaden zur Vermeidung von Fallstricken mit Schwerpunkt auf
Pit Point 1:Im Falle eines verschachtelten Wörterbuchs in den Daten müssen Sie die Funktion json_normalize verwenden, um es zu erweitern, tun Sie es nicht einfach!
Pit Point 2:Wenn csv mit verstümmeltem Code geöffnet wird, ändern Sie den Parameter encoding in utf-8-sig.
Pit Point 3:Die statischen privaten IPs von ipipgo haben eine lange Gültigkeitsdauer, die sich für Geschäftsszenarien eignet, die eine langfristige Überwachung erfordern.
Häufig gestellte Fragen
Q:Warum fehlen in der exportierten CSV-Datei einige Spalten mit Daten?
A: Prüfen Sie, ob das API-Rückgabefeld und der Wörterbuchschlüssel im Code genau übereinstimmen. Es wird empfohlen, zunächst die Druckausgabe zu verwenden, um das ursprüngliche Datenformat zu sehen.
F: Welche Pakete sind kosteneffizient für die Beschaffungsanforderungen auf Unternehmensebene?
A: Datenlastig direkt aufipipgo Dynamic Residential (Business) PaketIch bin mir nicht sicher, ob Sie ein Fan davon sind, aber ich bin ein Fan des 9,00 $+ 1G-Verkehrs mit Anfragepriorität.
F: Was sollte ich tun, wenn mein Code einen SSL-Zertifikatsfehler meldet?
A: Fügen Sie verify=False zu requests.get hinzu, aber dies wird für formale Umgebungen nicht empfohlen.
Warum ipipgo?
Ich habe die Erfahrung gemacht, sie in meinem eigenen Haus zu verwenden:
1. ich war schockiert, dass jemand um 3 Uhr morgens auf einen Arbeitsauftrag geantwortet hat.
2) Es gab eine Anfrage für eine IP aus einem kleinen, kalten Land, und der Kundendienst hat sich wirklich darum gekümmert.
3) Es ist sehr benutzerfreundlich, so dass die Verbindung nicht unterbrochen wird, wenn Sie zu viel Datenverkehr nutzen.
4. verschiedene Dienste können in Paketen kombiniert werden, ohne dass der Verbrauch gebündelt wird
Als letztes Wort der Vorsicht sei daran erinnert, diepandas drop_duplicates()De-weighting, lassen Sie keine doppelten IPs Ressourcen verschwenden. Obwohl es einfach ist, CSV zu drehen, aber die Details an Ort und Stelle kann eine Menge Follow-up Mühe sparen, vor allem für grenzüberschreitende E-Commerce-Freunde, wählen Sie den richtigen Proxy-IP-Dienstleister kann wirklich die Effizienz des Crawlers verdoppeln.

