
Was ist zu tun, wenn ein Crawler auf einen Anti-Crawler trifft? Versuchen Sie dies.
Alte, eiserne Leute sammeln Daten, und in neun von zehn Fällen stoßen sie auf 403 Forbidden, oder? Heutzutage sind Websites so schlau, dass sie Ihre IP blockieren, wenn sie Sie nicht mögen.Proxy IP + Benutzerdefinierte KopfzeileEs ist der goldene Partner. Zum Beispiel mit ipipgo Proxy-Service, jede Anfrage für eine neue "Rüstung", die Website kann nicht sagen, ob es eine Person oder eine Maschine ist.
Praktische Übungen zum Spiel des Curl Pass Header
Lassen Sie uns zuerst zur Sache kommen, direkt zum Code:
curl -x http://user:pass@proxy.ipipgo.cn:8080
-H "Benutzer-Agent: Mozilla/5.0 (Windows NT 10.0)"
-H "X-Requested-With: XMLHttpRequest"
https://target-site.com/api/data
hier sindDer Parameter -x gibt den Proxyserver anDie Proxy-Adresse von ipipgo sollte mit dem Passwort Ihres Kontos ausgefüllt werden. Multiple Header wird ein paar mehr -H schreiben, mit dem Zuckerkürbis wie String.
Kopfzeile Tarnung vier Diamanten
Dies sind die Parameter, die am besten funktionieren:
- User-Agent (Geräte-Fingerabdruck)
- Accept-Language (bevorzugte Sprache)
- Referent
- Cookies (Anmeldedaten)
Es wird empfohlen, eine Konfigurationsdatei anzulegen, in der z. B. gängige Kombinationen gespeichert werden:
{
"mobile": {
"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 14_7 wie Mac OS X)",
"Accept": "application/json"
},
"pc": {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)", "Accept-Language": {
"Accept-Language": "zh-CN,zh;q=0.9"
}
}
Dynamische Kopfzeilendrehung Schwarz
Wenn Sie immer einen festen Header verwenden, werden Sie trotzdem erwischt, und es ist an der Zeit, sich mit ipipgo'sDynamischer IP-PoolDer Effekt ist vergleichbar mit den zweiundsiebzig Veränderungen des Affenkönigs. Wenn das Skript zufällig die Kopfzeile wechselt, ist der Effekt mit den 72 Änderungen des Affenkönigs vergleichbar:
headers_list = [
{"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)"},
{"User-Agent": "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.7.62"}, {"User-Agent": "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.7.62"}, {"User-Agent": "Opera/9.80 (Windows NT 6.1; U; en)
{"Benutzer-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36"}
]
proxy = "http://user:pass@proxy.ipipgo.cn:3000"
curl -x $proxy -H "${headers_list[$RANDOM % 3]}" https://xxx.com
Praktischer Leitfaden zur Vermeidung der Grube
Einige Websites erkennen die Reihenfolge des Headers, denken Sie nicht, dass Sie ihn einfach schreiben. Es wird empfohlen, den Browser zu verwenden, um die Website normal zu besuchen, greifen das Paket, um die ursprüngliche Anforderung der Header-Reihenfolge zu sehen, nach der Katze Zeichnung der Tiger ist die sicherste.
| falsche Körperhaltung | richtige Körperhaltung |
|---|---|
| Fehlender Content-Type | Einstellung nach Schnittstellentyp |
| nicht-permanenter Zeichensatz | Vereinheitlichtes UTF-8 |
| unkonventioneller Zeitstempel | Aufrechterhaltung der Konsistenz der Zeitzonen |
Frage-und-Antwort-Runde
F: Was sollte ich tun, wenn ich nach dem Hinzufügen von Header immer noch gesperrt werde?
A: Versuchen Sie ipipgo'sHochversteckte AgentenWenn Sie die ursprüngliche IP vollständig ausblenden müssen, prüfen Sie, ob das Cookie abgelaufen ist oder zu häufig verwendet wird.
F: Was ist falsch daran, sich mit Cookies zu befassen?
A: Verwenden Sie curl -c, um die Cookie-Datei zuerst zu speichern, und bringen Sie den Parameter -b bei nachfolgenden Anfragen mit:
curl -x http://proxy.ipipgo.cn -c cookies.txt -b cookies.txt https://xxx.com/login
F: Warum ist die Antwort nach der Verwendung eines Proxys langsamer?
A: Es kann ein Problem mit der Knotenleitung sein, schalten Sie den ipipgo Hintergrund einBGP-HybridleitungWählen Sie einen Serverraum, der sich in unmittelbarer Nähe befindet.
Die ultimative Lösung
Wenn Sie eine konsistente Datenerhebung durchführen wollen, müssen Sie sich schließlich für eine solche entscheiden.ipipgo's kommerzielle Proxy-PaketeDas ist der Weg des Königs. Exklusive IP-Pool + intelligente Route Switching + Header automatische Tarnung, drei-in-One-Lösung. Neue Benutzer erhalten 200M Verkehr Versuch, nicht gut, direkte Ziegel zu verwenden.
Zum Schluss noch ein Hinweis: Header Camouflage ist kein Allheilmittel, mit einem vernünftigen Anfrageintervall. Genau wie das Essen Grill mit Bier, Bier trinken allein ist nicht der Geschmack ist nicht?

