
Hier lernen Sie, wie man Anfrage-Header hinzufügt, wenn man cURL verwendet, um Proxys aufzuhängen.
Crawler sollten verstehen, dass einige Websites wissen sollten, einige der Website besondere gut, das Licht hängen Proxy ist nicht genug, müssen Sie etwas in der Anfrage-Header, um durch zu muddeln tun. Heute werden wir cURL dieses magische Werkzeug verwenden, sagen, wie die Anfrage-Header in der Proxy-Anfrage anpassen.
Grundlegende Proxy-Konfiguration
Zunächst einmal die ganz einfachen Proxy-Einstellungen, nehmen Sie unseren ipipgo-Proxy als Beispiel:
curl -x http://user:pass@proxy.ipipgo.com:8000 https://target-site.com
Passen Sie hier auf.Parameter -xGefolgt von dem Format, geben Sie den Doppelpunkt nicht falsch ein. Wenn Sie einen Socks5-Proxy verwenden, ersetzen Sie http durch Socks5, und die Portnummer hängt von den Informationen ab, die im jeweiligen Paket angegeben sind.
Praktische Tipps zur Header-Tarnung anfordern
Einige Websites fragen nach User-Agent-Parametern, so dass wir uns wie ein normaler Browser verhalten müssen. Versuchen Sie diese Konfiguration:
curl -x http://proxy.ipipgo.com:8000
-H "Benutzer-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
-H "Accept-Language: zh-CN,zh;q=0.9"
https://target-site.com
Fokus auf-H-Parameter, die unbegrenzt gestapelt werden können. Ich habe die Angewohnheit, allgemeine Header-Informationen in einer Konfigurationsdatei zu speichern und sie mit dem Parameter -config aufzurufen, damit ich sie nicht jedes Mal von Hand ausfüllen muss.
Zwängen Sie keine Authentifizierungsinformationen in den Code.
Ein häufiger Fehler, den Neulinge begehen, besteht darin, die Kennwörter von Konten direkt in die Befehlszeile zu schreiben, was sowohl unsicher als auch schwer zu pflegen ist. Es wird empfohlen, die .netrc-Datei zu verwenden:
Erstellen Sie eine .netrc-Datei im Benutzerverzeichnis
Rechner proxy.ipipgo.com
login Ihr Konto
Passwort Ihr Passwort
Fügen Sie dann bei der Ausführung einen -netrc-Parameter hinzu, und schon ist der Code viel sauberer:
curl --netrc -x http://proxy.ipipgo.com:8000 ...
Wir müssen einen neuen Versuch nach der Zeitüberschreitung veranlassen.
Wenn Sie einen Proxy verwenden, werden Sie unweigerlich mit Netzschwankungen konfrontiert, und diese Parameter können Ihnen in kritischen Momenten das Leben retten:
--connect-timeout 30 Zeitüberschreitung für die Verbindung 30 Sekunden
---max-time 120 Gesamtzeitüberschreitung 2 Minuten
--retry 3 Automatischer Wiederholungsversuch 3 Mal fehlgeschlagen
Praktischer QA Pit Row Leitfaden
Q:Die Proxy-Einstellung ist erfolgreich, aber die Website gibt immer noch 403?
A: Es ist wahrscheinlich, dass der Request-Header offengelegt ist. Versuchen Sie, den Referer- und den Cookie-Header hinzuzufügen, und verwenden Sie den Parameter -verbose, um den gesamten Request-Prozess zu sehen.
F: HTTPS-Anfragen melden immer Zertifikatsfehler?
A: Fügen Sie -proxy-insecure am Ende des Befehls hinzu, oder geben Sie den Zertifikatspfad mit -proxy-cacert an
F: Wie kann man den Agentenpool im Stapelverfahren testen?
A: Schreiben Sie die Proxy-Adresse in die txt-Datei, rufen Sie die Abfrage mit dem Parameter -K auf und denken Sie daran, das zufällige Anfrage-Header-Plugin zu verwenden
Warum ipipgo Proxies empfehlen
Der Agenturservice in den eigenen vier Wänden, um nur ein paar echte Vorteile zu nennen:
| Paket Typ | Anwendbare Szenarien | Preisvorteil |
|---|---|---|
| Dynamisches Wohnen (Standard) | Tägliche Datenerfassung | 7,67/GB/Monat |
| Dynamischer Wohnungsbau (Unternehmen) | Anforderungen für hochfrequente Besuche | 9,47 RMB/GB/Monat |
| Statische Häuser | Langfristig angelegte Operationen | 35/IP/Monat |
Ein besonderes Wort des Lobes für ihreTK-LinieDie API-Extraktion ist auch bequem, direkt curl ihre Schnittstelle können frische Proxy zu bekommen, sparen Sie sich die IP-Pool zu pflegen.
Abschließend möchte ich noch darauf hinweisen, dass Sie immer wieder versuchen müssen, den Proxy zu konfigurieren. Haben Sie es nicht eilig, den Proxy zu ändern, wenn Sie auf seltsame Probleme stoßen, verwenden Sie zunächst -trace-ascii, um die Anforderungsprotokolle zu speichern und zu analysieren, denn sehr oft sind die Parameter nicht korrekt. Wenn Sie irgendwelche spezifischen Fragen haben, können Sie uns gerne ansprechen, wir reden nicht über Unwahrheiten.

