
Wie wählt man ein Tool für Proxy-Crawler aus?
Brüder in der Datensammlung beschäftigt verstehen, dass diese Crawler-Tools auf dem Markt so viel wie die Karotten auf dem Markt. Aber die wirklich gute Nutzung dieser wenigen, wie Scrapy Rahmen mit glatten, Requests Bibliothek ist auch alt. Konzentrieren Sie sich auf ein Geheimnis - wählen Sie das Werkzeug, um es zu sehen!Proxy-KompatibilitätDas erste, was Sie tun müssen, ist, um die Proxy-Einstellungen von einigen Tools zu ändern achthundert Parameter zu ändern. Einige Tools Proxy-Einstellungen zu ändern achthundert Parameter, haben noch nicht begonnen, den Blutdruck zu sammeln ersten up.
Nehmen wir als Beispiel die Einrichtung eines Requests-Proxys.
Anfragen importieren
proxies = {
'http': 'http://username:password@gateway.ipipgo.cc:3000',
'https': 'http://username:password@gateway.ipipgo.cc:3000'
}
response = requests.get('Zielsite', proxies=proxies)
Die drei Fallstricke der Proxy-IP-Konfiguration
Neulinge sind am ehesten in diesen drei Orten fallen: 1) Proxy-Format ist falsch geschrieben (der Doppelpunkt in chinesischen Satzzeichen), 2) nicht mit Authentifizierungs-Informationen (insbesondere dynamische Wohn-Agent), 3) Timeout-Einstellungen sind unangemessen (empfohlen 3-5 Sekunden). Wenn Sie ipipgo verwenden, gibt es einen faulen Weg, ihre Client direkt Konfigurationsdateien zu generieren, kopieren und einfügen verwendet werden kann.
| Art des Fehlers | typisches Symptom | eine Angelegenheit regeln |
|---|---|---|
| Fehler im Proxy-Format | VerbindungsFehler | Siehe http://前缀和端口号 |
| Authentifizierungsfehler | 407 Status Code | Bestätigung der Gültigkeit des Kontopakets |
| Timeout-Ausnahme | ReadTimeout | Einstellen des Timeout-Parameters |
Anti-Reverse-Crawl-Technik
Der Schutz einer Website ist wie eine Sicherheitstür, wir müssen den Generalschlüssel vorbereiten. Lassen Sie uns mit einem Trick beginnen:Dynamische Wohnungsvermittler + Zufalls-UADas goldene Paar. Nehmen Sie zum Beispiel das Dynamic Residential Package von ipipgo, das bei jeder Anfrage automatisch die IPs wechselt und mit der fake_useragent-Bibliothek zusammenarbeitet, um die Website so aussehen zu lassen, als würde sie von einer echten Person aufgerufen.
from fake_useragent import UserAgent
ua = BenutzerAgent()
headers = {
'User-Agent': ua.random, 'Accept-Language': 'zh-CN,zh;q=0.9'
Accept-Language': 'zh-CN,zh;q=0.9'
}
Geraten Sie nicht in Panik, wenn Sie auf CAPTCHA stoßen, versuchen Sie diesen Trick: Stellen Sie das Abfrageintervall auf3-8 Sekunden zufällige VerzögerungTatsache ist, dass die tatsächliche IP-Adresse nicht die gleiche ist wie die IP-Adresse der Website. Genau wie die Menschen tippen schnell und langsam, lassen Sie sich nicht die Website das Muster zu finden. ipipgo statische Wohn-Pakete kommen in dieser Zeit praktisch, langfristig stabile IP statt sicherer.
Fall der Preisüberwachung im elektronischen Geschäftsverkehr
Nehmen wir einen realen Fall: eine Preisvergleichsplattform muss 30 E-Commerce-Sites überwachen. Mit dem gewöhnlichen Proxy wurde zweimal in drei Tagen blockiert, wechselte zu ipipgo TK Linie, die Sammlung Erfolgsquote von 47% stieg auf 92%. Key-Code so geschrieben:
PHP-Beispielcode
$proxy = "gateway.ipipgo.cc:3000";
$context = stream_context_create([
'http' => [
'proxy' => "tcp://$proxy",
'request_fulluri' => true,
'header' => "Proxy-Authorisation: basic " . base64_encode("account:password")
]
]);
$data = file_get_contents('Target Link', false, $context);
Häufig gestellte Fragen QA
F: Der Proxy-IP stellt immer keine Verbindung her?
A: Überprüfen Sie zuerst die Whitelist-Einstellungen, denken Sie daran, die Server-IP im Hintergrund hinzuzufügen, wenn Sie ipipgo verwenden. Testen Sie dann den lokalen Telnet-Gateway-Port, 80% ist ein Feuerproblem.
F: Was kann ich tun, wenn ich nicht alle Daten erfasst habe?
A: Achtzig Prozent ausgelöst der Website Wind Kontrolle, versuchen Sie die Verringerung der Zahl der Gleichzeitigkeit. Verwenden Sie ihre Enterprise-Paket, das Multi-Thread-automatische IP-Switching unterstützt, viel besser als es allein gehen.
Tipps für die Auswahl eines Pakets
Es gibt einen großen Unterschied zwischen den ipipgo-Paketen:
- Dynamisches Wohnen (Standard): geeignet für Anfänger, mehr als 7 Yuan 1G Verkehr genug, um einen halben Monat zu spielen
- Dynamic Residential (Enterprise): mit automatischem Lastausgleich und einem Preis-/Leistungsverhältnis, das den Preispunkt von $9+ in den Schatten stellt.
- Statische Häuser: ein Muss für die Kontoverwaltung, ohne dass ein monatliches Abonnement für 35 $ erforderlich ist
Seien Sie nicht zu streng mit sich selbst, wenn es um CAPTCHA geht. Die Verwendung der Kodierungsplattform zu verwenden, Proxy-IP ist nicht alles. Aber wenn Sie den richtigen Proxy-Dienstleister wählen, können Sie mindestens 80% der Probleme bei der Erfassung lösen. Wir machen Crawler, über einewörtlich: vier Steine gegen tausend Pfund setzen (Idiom); fig. als Vermittler auftreten.

