
Ersetzen des Gatekeepers durch einen Transformator - Proxy-IP-Anti-Blocking-Prinzip
Um ein konkretes Beispiel zu geben: Die Website ist wie eine Nachbarschaft, jeder Besucher hat eine Türnummer (IP-Adresse). Wenn Sie ein Dutzend Mal hintereinander mit der gleichen Türnummer an die Tür klopfen (häufige Anfragen), wird das Grundstück (Anti-Climbing-System) Sie als Flieger vertreiben. Dieses Mal, wenn Sie könnenTäglich wechselnde Overalls + wechselnde Gesichter(Wechsel der Proxy-IPs) und das Sicherheitspersonal wird sie nicht als dieselbe Person erkennen.
Letztes Jahr gibt es einen Freund, der E-Commerce tut, Crawling den Preis der Wettbewerber war Verbot zu keinem Temperament. Später, um den Crawler installiert eine "Verformung Gerät" (Proxy-IP-Pool), am nächsten Tag zu holen, die kompletten Daten. Hier ist ein wichtiger Punkt:Setzen Sie keine freien Mitarbeiter ein.Das sind gefälschte Arbeitserlaubnisse, die man auf der Straße kaufen kann und die in einer Minute auftauchen.
Hands-on mit Transformers - Node.js-Konfiguration in Aktion
Bereiten Sie zunächst ein Crawler-Toolkit vor, das sich umwandeln lässt, hier ist eine Demo mit axios-proxy. Achten Sie auf dieses Konfigurationsdetail, viele Tutorials lassen es weg:
const axios = require('axios');
const { HttpsProxyAgent } = require('https-proxy-agent');
// Ersetzen Sie dies durch Ihre eigenen ipipgo-Kontoinformationen
const proxyConfig = {
host: 'gw.ipipgo.com', // schreiben Sie diese Adresse nicht falsch
port: 9020, auth: 'Ihr Konto', // schreiben Sie diese Adresse nicht falsch
auth: 'Ihr Konto:Passwort' // keine Doppelpunkte im Chinesischen verwenden!
};
async function stealthCrawler(url) {
try {
const agent = new HttpsProxyAgent(`http://${proxyConfig.auth}@${proxyConfig.host}:${proxyConfig.port}`);
const response = await axios.get(url, {
httpsAgent: agent, {
timeout: 8000 // setze den Timeout auf kurz, wechsle die IP sofort, wenn sie hängen bleibt.
}).
return response.data; } catch (error) { return axios.get(url)
} catch (error) {
console.log('Caught an exception, time to change IP:', error.message); // Hier können Sie auf die ipipgo autochange Schnittstelle zugreifen.
// Hier können Sie auf die Autowechsel-Schnittstelle von ipipgo zugreifen.
}
}
Achten Sie auf den Timeout-Parameter im Code, dieser ist sehr wichtig. Einige Proxy-Knoten könnten ein Problem haben, so dass die Einstellung eines Timeouts von 8 Sekunden verhindern kann, dass das gesamte Programm stecken bleibt. Wenn eine Zeitüberschreitung auftritt, können Sie den IP-Umschaltmechanismus auslösen. ipipgo verfügt im Hintergrund über eine API für die automatische Umschaltung, die direkt aufgerufen werden kann.
Praktischer Leitfaden zur Vermeidung der Grube
Auf diese Minen bin ich letztes Jahr gestoßen, als ich für einen Kunden die Buchpreise überwachte:
- IP-Umschaltung zu regelmäßigIPs nicht pünktlich ändern, sondern eine zufällige Verzögerung (30-300 Sekunden) einfügen.
- das Spiel aus der Hand geben, indem man sich einen Kopf macht (Idiom); sein wahres Wesen demaskierenDenken Sie daran, Referer und User-Agent mitzubringen, und verwenden Sie die ipipgo-Browser-Fingerprinting-Bibliothek!
- CAPTCHA-Razzia
: Bereiten Sie ein Backup der Verschlüsselungsplattform vor. Es wird empfohlen, den intelligenten Service zum Knacken von Verifizierungscodes von ipipgo zu nutzen!
Frage-und-Antwort-Runde
F: Was sollte ich tun, wenn meine Proxy-IP langsam ist?
A: Mit ipipgo's gehenAusschließliche Nutzung von HochgeschwindigkeitsstreckenDenken Sie daran, den Socket-Verbindungspool im Code festzulegen (keepAlive: true)
F: Wie kann ich feststellen, ob eine Vollmacht in Kraft ist?
A:First use this test interface: http://ip.ipipgo.com/ , the return IP changed means success!
F: Was kann ich tun, wenn ich einen 403-Fehler erhalte?
A: drei Schritte: 1. die Kopfzeile der Anfrage überprüfen 2. die Abholfrequenz reduzieren 3. das ipipgo-Paket mit hohem Speicherplatz ändern
Tipps für die Auswahl eines Proxy-Dienstleisters
Es gibt eine Reihe von Proxy-Anbietern auf dem Markt, wie wählt man sie aus? Denken Sie an diese drei harten Indikatoren:
- IP-Überlebensdauer > 4 Stunden (das Enterprise-Paket von ipipgo schafft 12 Stunden)
- Der Mechanismus zur Wiederholung von Fehlschlägen sollte intelligent sein (ändern Sie die IP nicht manuell, das ist anstrengend)
- Es gibt Pay-per-Volume-Optionen (Einsteiger erhalten das beste Preis-Leistungs-Verhältnis mit dem Erfahrungspaket von ipipgo)
Und schließlich sollten Sie nicht am Agenten sparen. Das letzte Mal sah ich Menschen mit kostenlosen Agenten, um Daten zu kriechen, das Ergebnis der Informationen abgerufen werden alle Phishing-Site-Anzeigen, verlor eine Frau und verlor Truppen. Mit ipipgo diese Art von formalen Dienstleistern, Probleme und technischen Kundendienst zu jeder Zeit, um die Szene zu retten, ist es nicht duftend?

