
A. Warum wird Ihr Antrag immer blockiert? Möglicherweise fehlt ihr diese "schützende Hülle".
Wir tun Datenerfassung Brüder müssen diese Art von Sache begegnet sein - natürlich den richtigen Code zu schreiben, aber die Zielseite ist nicht, Daten zu geben. Zu diesem Zeitpunkt müssen Sie denken, Ihre Anfrage ist nicht zu "nackt"? Wie das Tragen von Hosen im Sommer in einem High-End-Restaurant, der Türsteher nicht stoppen Sie zu stoppen, die?
Und hier kommen wir zumAnfrage-Header getarnt alsDiese lebensrettende Fähigkeit. Viele Websites erkennen den Request Header User-Agent, Accept-Language Parameter, um festzustellen, ob Sie ein Roboter sind. Außerdem ist die Proxy-IP wie eine Aufforderung, einen Mantel der Unsichtbarkeit zu tragen. In Verbindung mit einem gut gestalteten Request-Header kann die Erfolgsquote verdoppelt werden.
Beispiel für eine einfache Maskerade (zu leicht zu erkennen)
curl -H "Benutzer-Agent: Mozilla/5.0" http://example.com
So sollte fortgeschrittenes Masquerading funktionieren (mit Proxy-IPs)
curl -x http://user:pass@gateway.ipipgo.com:9020
-H "Benutzer-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, wie Gecko) Chrome/91.0.4472.124 Safari/537.36"
-H "Accept-Language: zh-CN,zh;q=0.9,en;q=0.8"
-H "Sec-Fetch-Site: same-site"
http://target-site.com
Zweitens, die Konfiguration des Request-Headers der vier Diamanten (mit dem eigentlichen Code)
Glauben Sie nicht, dass Sie sich mit ein paar Parametern abspeisen lassen, es gibt hier eine Menge zu sagen. Denken Sie an diese vier obligatorischen Parameter, um sicherzustellen, dass Ihre Anfrage so stabil wie ein alter Hund ist:
1) User-Agent: Browser-ID (es wird empfohlen, die neueste Version zu verwenden)
2) Accept-Encoding: Komprimierung (verwenden Sie nicht die Website nicht unterstützt)
3. referer: die Adresse der vorherigen Seite (gefälschter Zugriffspfad)
4. cookie: Anmeldedaten (dynamisch aktualisiert, um nützlich zu sein)
In der Praxis wird empfohlen, den dynamischen Wohn-Proxy von ipipgo zu verwenden. Deren IP-Pool wird täglich um mehr als 5 Millionen aktualisiert, wobei dieses Skript sicherstellt, dass jede Anfrage einer echten Person entspricht:
PROXY="http://user:pass@rotating.ipipgo.com:9021"
UA=$(shuf -n 1 user-agents.txt) UA-Bibliothek im Voraus vorbereitet
curl -x $PROXY
-H "Benutzer-Agent: $UA"
-H "Akzeptieren: text/html,application/xhtml+xml"
-H "Verbindung: keep-alive"
-H "Upgrade-Insecure-Requests: 1"
http://target.com
III. spezielle Techniken zur Gegenüberwachung (nicht bekannt für 90%)
Einige Websites erkennenAuftragskopf anfordernDies ist die Art von geschmackloser Operation, bei der es an der Zeit ist, mit dem Parameter -proxy-header herumzuspielen:
curl -x http://user:pass@gateway.ipipgo.com:9020
--proxy-header "Proxy-Authorization: Basic base64 string"
-H "Accept-Language: zh-CN"
-H "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, wie Gecko) Version/14.1.1 Safari/605.1.15"
-H "X-Requested-With: XMLHttpRequest"
http://api.target.com/data
Und jetzt kommt der Clou: ipipgo unterstützt Proxys!Dynamische ZertifikatsvalidierungDer erste ist die TLS-Fingerprint-Erkennung. Dies ist eine Menge von freien Agenten nicht tun können, die spezifische Konfiguration, um ihre Technologie zu geheimen Schlüssel auf sie zu finden.
IV. Leitlinien für die Beantwortung häufig gestellter Fragen
F: Den Request Header hinzufügen und trotzdem gesperrt werden?
A: 80% ist die Proxy-IP-Qualität ist nicht gut, mit ipipgo's exklusiven Proxy-Paket, jede IP mit echten Browser-Umgebung Simulation
F: Was ist, wenn ich mit CAPTCHA umgehen muss?
A: Fügen Sie "X-Captcha-Key: ipipgo_auto" in die Kopfzeile der Anfrage ein (dies ist die eingebaute Autocodierungsfunktion)
F: Wie erhalten Sie die Kohärenz Ihrer Gespräche aufrecht?
A: Verwenden Sie ipipgo'sAgenten mit langen Verjährungsfristen+ Cookie persistente Speicherung, gleiche IP, um mehr als 30 Minuten von Sitzungen zu erhalten
V. Ultimatives Konfigurationsprogramm (empfohlene Sammlung)
Diese Konfigurationsvorlage, die ich drei Jahre lang verwendet habe, drehte sich nicht um, mit ipipgo's Enterprise-Class-Agent, tägliches Mining Millionen von Daten stabil:
! /bin/bash
IPPOOL=("gateway.ipipgo.com:9020" "gateway.ipipgo.com:9021" "gateway.ipipgo.com:9022"))
UA_ARRAY=($(curl -s https://cdn.ipipgo.com/ua_pool))
for i in {1..1000}; do
RANDOM_IP=${IPPOOL[$RANDOM % ${IPPOOL[@]}]}
RANDOM_UA=${UA_ARRAY[$RANDOM % ${UA_ARRAY[@]}]}
curl -x "http://user:pass@${RANDOM_IP}"
-H "User-Agent: ${RANDOM_UA}"
-H "Accept-Encoding: gzip, deflate, br"
-H "Sec-Fetch-Dest: document"
-H "Pragma: no-cache" -H "Cache-Control"
-H "Cache-Control: no-cache" -H "Pragma: no-cache" -H "Cache-Control: no-cache"
--compressed
"http://target.com/page=$i" -o "data_$i.html"
sleep $((RANDOM%5+2)) Zufällige Verzögerungen sind wichtig!
fertig
Abschließend möchte ich noch sagen, dass die freien Anbieter allesamt Schrott sind, und Sie sollten sich einen professionellen Dienstleister wie ipipgo suchen. Sie haben vor kurzem in Aktivitäten, neue Benutzer zu senden 10G Verkehr, genug zu testen. Code in der Hand, die Welt, die Sie haben, bekommen bis Brüder!

