
I. Warum wird der curl request header weggeworfen?
Eine Menge von Partnern in der Verwendung von curl zu tun Datenerfassung, oft begegnet die Website gibt 403 Fehler. Diese Sache ist genauso frustrierend wie in den Supermarkt zu gehen, um etwas zu kaufen wurde an der Tür gestoppt -.Der Server glaubt nicht, dass Sie echt sind.. Websites sind heutzutage mit intelligenten Gating-Systemen ausgestattet, die prüfen, ob der Header Ihrer Anfrage dem entspricht, auf den ein Browser normalerweise zugreifen würde.
Wenn Sie beispielsweise mit dem einfachen Befehl curl auf eine Website zugreifen, sieht der Standard-Benutzer-Agent wie folgt aus:
curl/7.68.0
Es sagt dem Server, dass du ein Roboter bist! Wir müssen dem ServerSchminken Sie sich.und gibt sich als Chrome- oder Firefox-Browser aus.
Zweitens, Hand, um Ihnen beizubringen, kosmetische curl Anfrage Header
Schreiben Sie zunächst einige häufig verwendete Parameter für die Kopfzeile von Anfragen in ein kleines Notizbuch:
| Anfragekopf | Beispiel für einen anständigen Browser |
|---|---|
| Benutzer-Agent | Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36... |
| Akzeptieren | text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8 |
| Accept-Language | zh-CN,zh;q=0.9,en;q=0.8 |
Der Befehl sieht wie folgt aus (Fokus auf -H Parameter):
curl -H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64)..."
-H "Accept-Language: zh-CN,zh;q=0.9"
https://目标网站.com
Drittens, mit ipipgo agent bessere Ergebnisse
Manchmal reicht es nicht aus, den Request-Header zu ändern, denn manche Websites sind nachtragend.Derselbe IP-Zugang zu viele Male noch blockiertDer beste Weg, dies zu tun ist, um unsere Killer ip ipgo Proxy-Service zu bekommen. Jetzt ist es an der Zeit, unseren Killer ipipgo Proxy Service zu nutzen.
Fügen Sie dem Befehl den Parameter -proxy hinzu, und Sie sind fertig:
curl --proxy http://username:password@gateway.ipipgo.com:9020
-H "User-Agent: eigener Browser UA"
https://目标网站.com
ipipgosDynamische WohnungsvermittlerBesonders gut, jede Anfrage automatisch ändern IP, spielen Verstecken und suchen mit der Website. Sie haben auch eine spezielle Anti-Climbing-Mechanismus für die Optimierung des Kanals, getestet einen bestimmten Osten und einen bestimmten Schatz wird nicht die Überprüfung auslösen.
IV. Richtlinien für die Rettung von häufigen Überschlagsszenen
QA 1: Warum wird immer noch 403 zurückgegeben, obwohl der Request-Header gesetzt ist?
→ Stellen Sie sicher, dass Accept-Encoding nicht fehlt; einige Websites überprüfen diesen Parameter. Versuchen Sie, -H "Accept-Encoding: gzip, deflate, br" hinzuzufügen.
QA 2: Was ist, wenn der Agent keine Verbindung herstellen kann?
→ 先用curl –proxy访问ipipgo的IP检测接口,看看返回的出口IP对不对。如果超时,可能是防火拦了,换个端口试试
QA 3: Was ist, wenn ich eingeloggt bleiben möchte?
→ Vergessen Sie nicht, auch den Cookie-Header mitzunehmen, mit -H "Cookie: your login credentials". Es wird empfohlen, das Cookie mit den Entwicklertools herauszukopieren, nachdem Sie sich zuerst im Browser angemeldet haben
V. Wichtige Tipps für ältere Spieler
Wenn Sie auf eine besonders schwierige Seite stoßen, können Sie einen großen Hit anbieten - dieKopfzeile der RandomisierungsanfrageIm Folgenden finden Sie ein Beispiel, wie Sie dies tun können. Schreiben Sie ein Shell-Skript, das die UA- und Sprachparameter verschiedener Browser jedes Mal zufällig mit der automatischen IP-Wechselfunktion von ipipgo kombiniert, um den Stealth-Zugang perfekt zu realisieren.
Hier ist ein Beispiel für eine einfache Version des Skripts:
! /bin/bash
UA_LIST=("Mozilla/5.0 (Windows)...") "Mozilla/5.0 (Macintosh)...")
RANDOM_UA=${UA_LIST[$RANDOM % ${UA_LIST[@]}]}
curl --proxy http://ipipgo代理地址
-H "Benutzer-Agent: $RANDOM_UA"
-H "Accept-Language: zh-CN,en;q=0.$(($RANDOM%3+5))"
https://目标网站.com
Zum Schluss noch ein Hinweis: Beachten Sie die Nutzungsbedingungen der Website, wenn Sie einen Proxy verwenden. ipipgo ist mit allen seinen Knotenpunkten konform!IP-Pool bereinigenDie Anwendung ist kinderleicht, und neue Benutzer erhalten eine Testdosis, so dass wir empfehlen, es vor dem Kauf auszuprobieren.

