
Die versteckte Rolle von Kopfzeilen in Anfragen
Viele Partner in der Verwendung von curl zu tun Datenerfassung, immer auf die Situation der Website Abschirmung. Zu dieser Zeit, zusätzlich zur Änderung der Proxy-IPKopfzeileneinstellungen anfordernDies ist der eigentliche Schlüssel, um das Spiel zu knacken. Einige Websites prüfen zum Beispiel, ob Ihr User-Agent ein Browser ist oder nicht, und wenn Sie den Standard-Curl-Header verwenden, wird dies innerhalb von Minuten als Maschinenanfrage erkannt.
curl -x http://user:pass@proxy.ipipgo.cn:8080
-H "Benutzer-Agent: Mozilla/5.0 (Windows NT 10.0)..."
-H "Accept-Language: zh-CN"
https://目标网站.com
Wichtig ist dabei, dass die Proxy-Adresse in der Dateibenutzer:passUm zu Ihren eigenen Authentifizierungsinformationen zu wechseln, die im ipipgo-Backend generiert werden. Die Proxyserver unterstützen mehrere Authentifizierungsmethoden, was für Nutzer, die in großen Mengen arbeiten müssen, besonders vorteilhaft ist.
Dreifacher Schutz als echte Person getarnt
Es reicht nicht aus, einfach nur den Benutzer-Agenten zu ändern, Sie müssen eine ganze Reihe von Verkleidungen vornehmen. Hier zeigen wir Ihnen die drei obligatorischen Änderungen:
| Kopfzeile (Rechnen) | empfohlener Wert | Beschreibung der Rolle |
|---|---|---|
| Accept-Encoding | gzip, deflate | Browser-Komprimierung nachahmen |
| Referent | Homologation Website Adresse | Schaffung der Illusion des Besuchs von Quellen |
| Verbindung | keep-alive | Die Beibehaltung langer Verbindungen reduziert die Funktionen |
Denken Sie daran, dass jede Anfrage wie folgt lauten sollteZufallsintervall 1-3 SekundenDer Proxy-Pool mit ipipgo kann automatisch die Ausgangs-IP wechseln, so dass bei dynamischen Header-Informationen der Anti-Blocking-Effekt direkt voll zum Tragen kommt.
Ärger auf dem Feld
Probieren Sie diese Kombination aus, wenn Sie auf eine besonders schwierige Seite stoßen:
curl -x http://动态认证.rotating.ipipgo.net:9021
-H "Cookie: kopiere echtes Cookie vom Browser"
-H "X-Forwarded-For: zufällige öffentliche IP"
--connect-timeout 10
https://反爬严格的网站
Hier gibt es zwei wichtige Punkte:
1. ipipgo'sdynamischer AuthentifizierungsagentSie müssen Ihre eigenen Passwörter nicht mehr zusammensetzen.
(2) X-Forwarded-For sollte mit der Adresse des öffentlichen Netzes in derselben Region wie die Proxy-IP gefüllt werden.
Gemeinsame Rollover-Szene QA
F: Was soll ich tun, wenn ich immer noch erkannt werde, obwohl ich alle Kopfdaten eingestellt habe?
A: Beginnen Sie mit dem, was ipipgo zu bieten hat!Instrumente zur ErkennungSchauen Sie sich die eigentliche Kopfzeile der Anfrage an, einige Websites verlangen einen bestimmten Kopfparameter
F: Proxy-IP verbindet sich oft mit Timeout?
A: Setzen Sie den Parameter -connect-timeout auf mehr als 15 Sekunden, wird empfohlen, ipipgo'sEnterprise LinesIhre BGP-Leitungen haben eine Erfolgsquote von 99,2%.
F: Wie unterbreche ich es, wenn ich mit Cookies umgehen muss?
A: Geben Sie die Cookie-Datei mit dem Parameter -b von curl an und stellen Sie gleichzeitig sicher, dass jede Anfrage dieselbe Proxy-IP, ipipgo'sFunktion zum Halten der SitzungGenau das Richtige, um es zu reparieren.
Warum ipipgo?
Nachdem ich etwa ein Dutzend Anbieter in der Praxis getestet hatte, entschied ich mich schließlich für ipipgo für nur drei Punkte:
1. inländischer, selbst gebauter Serverraum, im Gegensatz zu denjenigen, die in Übersee gebrauchte IP verwenden
2. unterstützenAnpassung der KopfzeileProxy-Kanal, diese Funktion ist wirklich nicht anderswo verfügbar
3) Der Kundendienst kann innerhalb von Sekunden auf Arbeitsaufträge reagieren. Das letzte Mal, als ich mitten in der Nacht ein Problem mit dem Debuggen von Skripten hatte, war es innerhalb von 5 Minuten gelöst.
Schließlich gibt es eine ultimative Konfigurationsvorlage, die folgende Parameter als Config-Datei speichert, wenn sie direkt aufgerufen wird:
Als curl_config.txt speichern
user-agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36..."
referer = "https://www.google.com/"
proxy = "http://auto:动态密钥@gateway.ipipgo.com:8899"
Fügen Sie dem Aufruf einfach den Parameter -K hinzu:
curl -K curl_config.txt Ziel-URL

