
Praktische Übungen zur Verwendung von Curl und Header Anti-Blocking Crawl-Daten
Kürzlich, einige alte Eisen fragte mich, mit Curl Crawl-Daten alt von der Website blockiert IP, wie zu tun? Heute werden wir über diese nörgeln. Konzentrieren Sie sich auf einen harten Trick.Benutzerdefinierte Kopfzeile + Proxy-IPKombinationen, die sich als wirksam erwiesen haben.
Zunächst einmal ein echter Fall: eine E-Commerce-Plattform Preisüberwachung Skript, mit gewöhnlichen curl Anfrage weniger als eine halbe Stunde zu verbieten. später auf die Anfrage-Header mit dem Browser-Eigenschaften, und mit ipipgo dynamischen Proxy-Pool, läuft für drei Tage sind in Ordnung. Hier ist, wie es zu tun.
Die richtige Haltung von curl plus Header
Beginnen wir mit einer typischen Überschlagszene:
https://目标网站.com locken.
Bei dieser Art von einfachen Anfragen weiß der Server auf einen Blick, dass es sich um einen Bot handelt, der etwas tut. Wir müssenZiehen Sie eine Weste über die Locke.::
curl -H "Benutzer-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36" -H "Accept-Language: zh-CN,zh;q=0.9" -H "Referer: https://www.google.com/" https://目标网站.com
Beachten Sie die drei wichtigsten Überschriften:
| Name der Überschrift | entspricht Englisch -ity, -ism, -ization | Beispielwert |
|---|---|---|
| Benutzer-Agent | Gefälschter Browser | Neueste Version von Chrome oder Firefox |
| Accept-Language | Spracheinstellungen | zh-CN zuerst |
| Referent | Quellseite | Suchmaschinensprung simulieren |
Der richtige Weg zur Eröffnung einer Proxy-IP
Es reicht nicht aus, nur den Header zu ändern, sondern man muss mit einer Proxy-IP arbeiten, um in der Lage zu seinvollständige UnsichtbarkeitAls erstes möchte ich den Dienst von ipipgo nutzen. Hier empfehlen wir, die Dienste von ipipgo zu nutzen, der ein spezielles Anti-Blocking-Paket anbietet. Siehe spezifische Verwendung:
curl -x http://用户名:密码@proxy.ipipgo.com:端口号 -H "User-Agent: Mozilla/5.0..." https://目标网站.com
Achten Sie auf diese beiden Schlaglöcher:
- Verwenden Sie keine kostenlosen Proxys, 99% sind alle öffentlichen IP-Pools, vor langer Zeit zog die Website den Stecker!
- Proxys für Wohnhäuser sind heimtückischer als Proxys für Serverräume, und ipipgo'sDynamische Wohn-IPHöhere Erfolgsquote für Pakete
Praktischer Leitfaden zur Vermeidung der Grube
Das seltsamste Verbot, das mir je begegnet ist: eine Website, die tatsächlich Schriftart-Rendering-Parameter in Cookies erkennt! Hier ein paar geschmacklose Aktionen zum Mitteilen:
- Ersetzen Sie regelmäßig die Kopfzeilen in derAccept-Encodingim Dienst sein
- Wahllos sinnlose, aber legale Felder in die Kopfzeile der Anfrage einfügen, wie z. B.X-Requested-With: XMLHttpRequest
- Mit ipipgo.Sitzung haltenFunktionen zur Aufrechterhaltung einer angemessenen Zugriffshäufigkeit für dieselbe IP
Häufig gestellte Fragen QA
F: Was sollte ich tun, wenn ich nach dem Hinzufügen von Header immer noch blockiert werde?
A: Überprüfen Sie, ob das Cache-Control-Feld fehlt; es wird empfohlen, es hinzuzufügen.Cache-Kontrolle: max-age=0Simulation des Browser-Verhaltens
F: Wie lässt sich das Problem der langsamen Proxy-IP-Geschwindigkeit lösen?
A: ipipgo'sIntelligentes RoutingFunktion wählt automatisch den schnellsten Knoten aus, oder Sie können den Befehl curl mit-m 30Einstellung der Timeout-Zeit
F: Was ist, wenn ich mit Cookies arbeiten muss?
A: Beginnen Sie mit der Locke-c cookie.txtParameter, um das Cookie zu speichern und es bei nachfolgenden Anfragen mitzubringen-b cookie.txt
Das ultimative Programm zur Erhaltung des Lebens
Schließlich eine universelle Vorlage, denken Sie daran, sie durch Ihr ipipgo-Konto zu ersetzen:
curl -x http://vipuser:123456@proxy.ipipgo.com:8899 -H "Benutzer-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36" -H "Accept: text/html,application/xhtml+xml" -H "Accept-Encoding: text/html,application/xhtml+xml" -H "Accept-Encoding: gzip, deflate, br" -komprimiert https://目标网站.com
Diese Vorlage hat drei Hauptdesigns:
- Mit ipipgo'sAgentenkanal für Unternehmen
- Emuliert alle Browserfunktionen
- Komprimierte Übertragung einschalten, um Datenverkehr zu sparen
Wenn Sie auf eine besonders schwierige Website stoßen, können Sie sich an den technischen Support von ipipgo wenden, um die Website anzupassen!Spezielles Programm zur Bekämpfung des KletternsIhre Ingenieure haben sich mit allen möglichen kranken Anti-Climbing-Taktiken befasst, z. B. mit dem, was TLS-Fingerprinting-Authentifizierung und Browser-Fingerprinting-Erkennung leisten können.

