
Der alte Fahrer des Crawlers hat Angst vor was, IP blockiert die meisten Kopfschmerzen!
Kürzlich eine Menge von Datenerhebung Freunde und ich beschwerte sich, mit dem gospider dieses magische Werkzeug, um Daten wirklich schnell klettern, aber nicht auf die Ziel-Website blockiert IP. letzte Woche gibt es einen E-Commerce-Preisvergleich Bruder, nur eine halbe Stunde auf der blockierten mehr als 20 IP laufen, so wütend, dass fast die Tastatur zerschlagen.
Hier ein Tipp für die Jungs:Proxy IP ist Ihr TarnanzugEs ist wie ein Spiel von Huhn zu spielen. Als ob ein Spiel von Huhn zu spielen, das Tragen eines Drei-Ebenen-Rüstung kann zwei weitere Schüsse tragen, mit einem Proxy-IP kann Ihr Crawler in der Website unter den Nasen der wiederholten horizontalen Sprung lassen. Unser HausipipgoDer Proxy-Dienst wurde daraufhin getestet, dass er auch Anfragen mit hoher Gleichzeitigkeit stabil bearbeiten kann.
Hände auf die Weste für Gospider.
gospider -s "https://target.com" -a -c 10 -d 3
--proxy http://user:pass@proxy.ipipgo.com:31028
in diesem Befehl.-Proxy-ParameterDas ist der Schlüssel, die ipipgo bieten Proxy-Adresse zu füllen, sofort zu einem "tausend-Gesicht Crawler". Achten Sie auf das Format schreiben nicht die falsche, vor allem das Konto Passwort und Port-Nummer, Anfänger ist am ehesten in diesem fallen.
| Parameter | entspricht Englisch -ity, -ism, -ization | empfohlener Wert |
|---|---|---|
| -c | Gleichzeitigkeit | 10-30 (je nach Agentenpaket) |
| -Vollmacht | Agenturvertrag | http/socks5 |
Praktischer Leitfaden zur Vermeidung der Grube
Das letzte Mal, als ich einem Kunden geholfen habe, den Preis der Reiseseite zu erhöhen, indem ich ipipgo's Resident Agent Pool benutzte, lief drei Tage hintereinander, ohne gesperrt zu werden. Hier ist ein kleiner Trick:Regelmäßige Änderung der Proxy-IP. Ihre API unterstützt die minutengenaue Änderung von IPs, und mit den zeitgesteuerten Aufgaben von gospider ist das perfekt.
Skript zum automatischen IP-Wechsel
while true; do
neue_IP=$(curl https://api.ipipgo.com/get_proxy)
gospider -s $url --proxy $new_ip
sleep 300 IP alle 5 Minuten ändern
done
Weiße gemeinsame Überschlagszene QA
F: Was soll ich tun, wenn meine Proxy-IP immer wieder ausfällt?
A: Überprüfen Sie zunächst die Proxy-Format ist nicht richtig, und dann versuchen, ipipgo verschiedenen Server-Raum-Knoten zu wechseln. Ihre technische Unterstützung Reaktion ist sehr schnell, das letzte Mal um zwei Uhr in der Mitte der Nacht zu erwähnen, die Arbeit, um tatsächlich gibt es jemanden zurück...
F: Ist es die Schuld des Agenten, dass der Crawler langsamer wird?
A: Nicht unbedingt! Verwenden Siecurl -xIndividuelle Testagenten-Verzögerung. Wenn die Latenz mehr als 200ms beträgt, empfiehlt es sich, das statische Hochgeschwindigkeitspaket von ipipgo zu wechseln, das speziell für Crawler optimiert ist.
F: Wie viele Proxy-IPs muss ich gleichzeitig verwenden?
A: Das hängt von der Stärke der Windkontrolle am Zielort ab. Es wird allgemein empfohlen, die3-5 mal die Anzahl der ÜbereinstimmungenDie Anzahl der IPs. Wenn Sie z.B. 20 Währungen betreiben, ist es am besten, 60-100 IPs für die Rotation bereitzuhalten, und die ipipgo-Pakete haben genau die richtige Menge dieser Art von Elastizität in ihren Konfigurationen.
Warum ipipgo?
Ich habe 7 oder 8 Vermittlungsdienste in Anspruch genommen und mich schließlich für sie entschieden. Drei Hardcore-Vorteile:
- Inländischer, selbst gebauter Serverraum, Latenz kann innerhalb von 50 ms kontrolliert werden
- Der IP-Pool aktualisiert stündlich 15%, was einfach zu viel ist, um es zu verbrauchen!
- Unterstützt die Abrechnung pro Traffic, was besonders für kleine Projekte geeignet ist.
Abschließend noch ein Ratschlag: Verwenden Sie keine kostenlosen Proxys für wenig Geld! Es gab einen Mann, der versuchte, sich etwas Ärger zu ersparen, aber als er die Daten crawlte, wurde ihm bösartiger Code injiziert, und die Datenbank wurde geleert. Das Professionelle ist immer noch das, was dieipipgoDiese Art von zuverlässigen Dienstleistern ist sicherer als alles andere.

