
Erstens, warum Crawler mit Proxy-IP, diese Frage muss klar sein
Engagiert in der Datenerhebung des alten Eisen wissen, ist die Website jetzt wie ein Dieb starrte auf den Crawler. Letzte Woche nahm ich das Unternehmen Intranet, um meine Hand zu versuchen, nicht hängen die Proxy direkt offen kriechen, die Ergebnisse von 5 Minuten blockiert werden IP, zog sogar die gesamte Abteilung für eine halbe Stunde getrennt, und war fast eingeladen, Tee zu trinken von der Führung.
zu diesem ZeitpunktProxy-IPEs ist Ihre Unsichtbarkeits-Tarnkappe. Es ist so, als ob Sie im Supermarkt das Essen probieren und immer nur einen Teller benutzen (feste IP), dann wird der Kellner Sie auf jeden Fall anhalten. Wenn Sie jedes Mal einen anderen Teller verwenden (Proxy-IP), wird man Sie nicht erkennen. Unsere ipipgo Proxy-Pool ist groß, das Land hat 5 Millionen + dynamische Wohn-IP, ändern IP als Wechsel Socken mehr fleißig.
Zweitens, Jsoup mit der richtigen Haltung des Bevollmächtigten
In vielen Tutorien wird gelehrt, System.setProperty zu verwenden, um einen Proxy einzurichten, das ist der jüngere Bruder zum Spielen! Was wirklich zuverlässig ist, ist die Verwendung des Connection-Objekts, um den Proxy direkt zu verbinden. Sehen Sie sich diesen Code an:
// Beachten Sie, dass Sie hier das ipipgo SDK importieren müssen.
import com.ipipgo.proxy.;.
...
Dokument doc = Jsoup.connect("Ziel-URL")
.proxy(ipipgo.getProxy()) // Der Schlüssel liegt in dieser Zeile! Den Proxy dynamisch holen
.timeout(30000)
.userAgent("Mozilla/5.0 (Windows NT 10.0) anständiger Browser")
.get();
Markieren Sie es dreimal:Verwenden Sie keine kostenlosen Agenten! Benutzen Sie keine kostenlosen Proxys! Benutzen Sie keine kostenlosen Bevollmächtigten!Vor der billigen Nutzung der Fasan Proxy, das Ergebnis des Kletterns auf die Daten sind alle Anzeigen, die Partei fast verklagt mich. ipipgo exklusive Proxy-Linie hat eine eigene Wartung, die Reaktionsgeschwindigkeit kann in 200ms oder weniger gedrückt werden.
Drittens, die eigentliche Schlacht in der geschmacklosen Operation
Wenn Sie auf eine Website stoßen, die schwer zu crawlen ist, werde ich Ihnen einen Trick beibringen:IP+UA+Cookie 3-teilige Rotation. Hier ist ein echter Fall:
| taktvoll sein | Wirkung | ipipgo-Konfigurationsempfehlungen |
|---|---|---|
| Single IP Kontinuierlicher Zugang | Sie wird in 10 Minuten geschlossen sein. | Automatischen Schaltmodus aktivieren |
| IP+Browser Fingerprinting | Überlebe 2 Stunden lang | Statische IP-Adresse des Wohnsitzes binden |
Das letzte Mal, als ich eine E-Commerce-Website nach Preisdaten durchforstete, verwendete ich ipipgosIntelligentes RoutingFunktion automatisch mit der IP des Zielservers übereinstimmen, wird die Erfassungsgeschwindigkeit direkt verdoppelt. Hier ist eine Grube zu beachten: schreiben Sie nicht eine tote Proxy-Adresse in den Code, um ihre API zu verwenden, um dynamisch zu erhalten, so dass die IP automatisch ändern, wenn es fehlschlägt.
IV. gemeinsame QS für Rollover-Standorte
F: Was sollte ich tun, wenn der Agent plötzlich keine Verbindung mehr herstellen kann?
A: Rufen Sie zuerst ipipgo ping interface detection auf. Wenn der Rückgabewert 502 ist, wechseln Sie sofort die alternative Leitung. Ihre Konsole verfügt über eine Echtzeitüberwachung, die zuverlässiger ist als ein eigener Wiederholungsmechanismus.
F: Was soll ich tun, wenn ich eine CAPTCHA-Bombardierung erlebe?
A: Machen Sie es nicht so schwer! Verringern Sie die Häufigkeit der Anfragen auf 1 Anfrage/5 Sekunden und schalten Sie ipipgo'sVerdeckter ModusDie Methode des Crawlings ist keine gute Idee. Pro-getestet effektiv, letzte Woche mit dieser Methode zu crawlen 100.000 Daten nicht die Überprüfung auslösen.
F: Wie kann ich feststellen, ob die Vollmacht wirklich gültig ist?
A: Fügen Sie dem Code eine Protokollausgabe hinzu:
System.out.println("Derzeit verwendeter Proxy: " + ipipgo.getCurrentProxy());
V. Sagen Sie etwas, das von Herzen kommt
Ich habe sieben oder acht Vermittlungsdienste in Anspruch genommen und schließlich lange Zeit ipipgo genutzt, und zwar aus drei Gründen: Erstens, weil deren HausEs ist so reaktionsschnell.Der zweite Grund ist, dass der IP-Pool groß genug ist, um die nationale Datenerhebung auf Bezirks- und Kreisebene genau durchführen zu können. Der dritte Grund ist, dass die Abrechnung flexibel ist, z. B. kostet unser kleines Team mit dem Volumenpaket pro Monat nur etwa hundert Dollar.
Eine letzte Erinnerung für Neulinge:Sparen Sie nicht an Agenten.Die Kosten für den Umgang mit schmutzigen Daten ist nicht genug für Sie, um die Agenten Gebühr zu sparen. Letztes Mal sah ich einen alten Mann mit einem freien Agenten, um die Daten zu klettern, die Ergebnisse in die Bibliothek festgestellt, dass 30% sind unordentlich Code, weinen zu spät.

