
Wenn Crawler auf Feuer trifft: Warum Ihre Proxy-IP plötzlich ausfiel
Freunde, die sich mit dem Crawling von Daten beschäftigen, haben diese Situation erlebt: Offensichtlich hat sich ein Dutzend Proxy-IPs geändert, und die Zielseite kann Ihren Crawler immer noch genau identifizieren. Zu diesem Zeitpunkt können Sie fluchen: "Diese gebrochene Website Anti-Reptilien-Abwehr mit dem Tresor wie!" Tatsächlich ist das Problem, dass Sie einen wichtigen Punkt übersehen haben - dieTLS-Fingerabdruck.
Anti-Crawling-Systeme beschränken sich heute längst nicht mehr nur auf die IP-Adresse. Wie ein Kurier, der ein Paket ausliefert, will die Website nicht nur Ihre Arbeitserlaubnis (IP-Adresse), sondern auch Ihren Fingerabdruck (TLS-Fingerabdruck) überprüfen. Viele Proxy-Dienstleister kümmern sich nur darum, Ihre Arbeitserlaubnis zu ändern, vergessen aber, Ihnen beim Fälschen von Fingerabdrücken zu helfen, was dazu führt, dass Sie innerhalb von Minuten erkannt werden.
Was zum Teufel ist dieses TLS-Fingerprinting?
Einfach ausgedrückt ist es die "ID" des Browsers, die eine verschlüsselte Verbindung mit einer Website herstellt. Jeder Handshake verrät zum Beispiel mehr als 20 Merkmale:
| charakteristischer Begriff | Generalvertreter | Real-Browser |
|---|---|---|
| JA3 Fingerabdrücke | Feste Vorlagen | dynamisch erzeugt |
| Protokollversion | Nur TLS 1.2 | Gemischte Unterstützung für mehrere Versionen |
| Cipher-Suite | Standard-Kombination | Mit browserspezifischer Sortierung |
Viele Proxy-Dienste sind wie massenproduzierte Gummistempel, und alle Anfragen tragen die gleichen Fingerabdrücke. Solange das Anti-Climbing-System eine große Anzahl von Anfragen mit denselben Fingerabdrücken findet, spielt es keine Rolle, wie viele IPs Sie ändern, Sie werden direkt gesperrt.
Fingerprinting von Proxy-IPs.
Um diesen Schutzwall zu durchbrechen, ist ein zweigleisiger Ansatz erforderlich:
1. Dynamischer IP-PoolDas hier ist für alle, aber Vorsicht!Die geografische Verteilung sollte ausreichend vielfältig sein.Der globale Knotenpunktspeicher, wie der von ipipgo, ahmt die geografische Verteilung der realen Nutzer nach.
2. Fingerabdruck-TarnungJetzt kommt der Clou! Um sicherzustellen, dass jede IP-Anfrage einen anderen TLS-Fingerabdruck trägt, werden drei praktische Tricks empfohlen:
- Randomisierte JA3-FingerabdrückeVerwendung einer festen Vorlage, die die Reihenfolge der Chiffriersätze bei jeder Anfrage zufällig durcheinander bringt
- Funktionen des emulierten BrowsersChrome, Firefox alle Versionen von Fingerprints sollten in der Lage sein, zu simulieren
- Protokoll Gemischter ModusTLS 1.3: Halten Sie sich nicht an TLS 1.3, sondern streuen Sie TLS 1.2-Anfragen ein, um mehr Realismus zu erreichen!
Praktischer Fall: das Stealth-Programm von ipipgo
Wir haben Tests für ein E-Commerce-Crawler-Projekt durchgeführt:
Gewöhnliches Proxy-Schema: Blockierung nach 50 aufeinanderfolgenden Anfragen
ipipgo-Programm: 3 Tage Dauerbetrieb mit einer Erfolgsquote von mehr als 981 TP3T
Wichtige Konfigurationsparameter:
- Automatischer Abgleich von Browser-Fingerprints pro Anfrage (Chromium, Webkit)
- Dynamischer Wechsel zwischen HTTP/2- und HTTP/1.1-Protokollen
- Automatische Injektion von Browser-Umgebungsvariablen (navigator.plugins usw.)
Häufig gestellte Fragen QA
F: Ich habe eine dynamische IP verwendet, warum wird sie immer noch erkannt?
A: Heutzutage sind Anti-Climbing-Systememehrdimensionale ErfassungIP ist nur die erste Schwelle. Das ist so, als ob man zwar seine Kleidung, aber nicht seine Haare wechselt und trotzdem erkannt wird.
F: Erfordert die Fingerabdrucktarnung von ipipgo eine zusätzliche Konfiguration?
A: Nicht nötig! Unser Proxy-Dienst ist bereits integriertIntelligentes Fingerabdruck-SimulationssystemDie Zugriffsmethode ist genau dieselbe wie bei einem normalen Proxy, es muss lediglich ein Umgebungserkennungsparameter in den Code eingefügt werden.
F: Beeinträchtigt die Tarnung von Fingerabdrücken die Anforderungsgeschwindigkeit?
A: Wie wir getestet haben, erhöht eine einigermaßen optimierte Lösung zur Verschleierung von Fingerabdrücken nur die Anzahl der5-8msLatenzzeit, was für die meisten Crawler-Projekte durchaus akzeptabel ist.
Um die Wahrheit zu sagen, ist Anti-Climbing und Anti-Climbing ein Spiel des Taoismus. Wenn Sie langfristige Stabilität wünschen, müssen Sie einen Dienstleister wie ipipgo wählen, der seine Gegenmaßnahmen ständig aktualisiert. Schließlich sollte man professionelle Dinge auch professionellen Werkzeugen überlassen.

