
Lassen Sie nicht zu, dass die IP-Blockierung Ihrem Crawler den Weg versperrt
Done Web Crawling Bruder verstehen, harte Arbeit, um den Crawler plötzlich Lähmung zu schreiben, neun von zehn Mal ist die IP von der Website blockiert. Dieses Mal der Proxy-IP auf die Szene, um den Notfall zu retten, vor allem wie dieipipgoEin solcher Dienstleister, der sich auf hochwertige Proxys spezialisiert hat, kann Ihnen bei der Datenerfassung behilflich sein.
Drei Schritte, um mit Nokogiri zu beginnen
Installieren Sie zunächst eine Nokogiri-Bibliothek, und geben Sie in der Befehlszeilegem install nokogiriUnd das war's dann auch schon. Denken Sie an die drei Achsen für die grundlegende Verwendung:
1. Abrufen von Webinhalten mit URIs
2. Inhalt an Nokogiri zum Parsen übergeben
3. Wählen Sie Daten aus, wie Sie Kleidung mit CSS auswählen würden
erfordern 'nokogiri'
erfordern 'open-uri'
doc = Nokogiri::HTML(URI.open('https://目标网站'))
setzt doc.css('h1.title').text
Anlegen einer Proxy-Weste an einen Crawler
Direkt zum Hardcore-Code, hier mitipipgodes Agenten, der die Vorführung macht. Achten Sie auf dieproxy_benutzerim Gesang antwortenproxy_passErsetzen Sie diese beiden Parameter einfach durch die Authentifizierungsinformationen, die Sie vom ipipgo-Backend erhalten haben.
proxy_host = 'gateway.ipipgo.com'
proxy_port = 9021
proxy_user = 'Ihr Konto'
proxy_pass = 'Ihr Passwort'
Optionen = {
http_proxyaddr: proxy_host, http_proxyport: proxy_port, http_proxy_port = 'Ihr Passwort'
http_proxyport: proxy_port, http_proxyuser: proxy_user, http_proxyport: proxy_user
http_proxyuser: proxy_user, http_proxypass: proxy_password
http_proxypass: proxy_pass
}
doc = Nokogiri::HTML(URI.open('https://目标网站', options))
| Art des Programms | Erfolgsquote | Wartungskosten |
|---|---|---|
| 30% | Tägliches Ändern des Codes | |
| Generalvertreter | 60% | Wöchentliche IP-Änderung |
| ipipgo-Vollmacht | 95%+ | Das ist im Grunde ein Kinderspiel. |
Praktischer Leitfaden zur Vermeidung der Grube
Geraten Sie nicht in Panik, wenn Sie auf ein CAPTCHA stoßen, sondern versuchen Sie diese drei Tricks:
1. die Häufigkeit der Anfragen zu reduzieren, indem einschlafen(3)
2. wechseln Sie den User-Agent, verwenden Sie nicht immer den gleichen.
3. die Verwendung von ipipgoDynamische WohnungsvermittlerBesuch in der Gestalt einer echten Person
Häufig gestellte Fragen zur Minenräumung
F: Kann der freie Mitarbeiter nicht eingesetzt werden?
A: Neun von zehn kostenlosen Proxys sind erbärmlich, entweder langsam wie eine Schildkröte oder hängen sich nach zwei Minuten auf. Es ist besser, die professionellen Dinge einem bezahlten Dienst wie ipipgo zu überlassen.
F: Was kann ich tun, wenn ich die Geschwindigkeit des Agenten nicht erreichen kann?
A:选离目标服务器近的节点,比如抓日本网站就用ipipgo的东京机房。后台还能看到每个节点的数据,挑绿色标记的用。
F: Woran erkenne ich, ob die IP in Kraft ist?
A: Fügen Sie dem Code einen Test hinzu:
puts open('http://ipinfo.io/ip', Optionen).read
Erforderliche Fähigkeiten für die Aufrüstung und den Kampf gegen Monster
Wenn Sie auf eine besonders schwierige Seite stoßen, versuchen Sie ipipgo'sSitzung haltenFunktion. Diese sorgt dafür, dass 20 Minuten lang dieselbe Exit-IP verwendet wird, was sich für Szenarien eignet, in denen man sich im Staat anmelden muss. In Verbindung mit ihrem intelligenten Routing, das automatisch die schnellste Leitung auswählt, wird die Erfassungseffizienz direkt verdoppelt.
Schließlich sagte eine Lektion in Tränen: im vergangenen Jahr nahm eine grenzüberschreitende E-Commerce-Projekt, nicht die Mühe, Proxy-Dienste zu kaufen, die Ergebnisse ihrer eigenen Wartung IP-Pool fast nicht vor Erschöpfung sterben. Später änderte sich zu ipipgo, jeden Monat zu sparen 40 Stunden Debugging-Zeit, das Geld ausgegeben ist absolut wert.

