
Python-Crawler, die sich an Daten zu schaffen machen, sollten nicht auf diese Schlaglöcher treten!
Kürzlich, eine Menge Freunde, die Daten Crawling gepflanzt, entweder von der Website, um die IP zu sperren oder sammeln einen Anwalt Brief. Es ist ein E-Commerce-Preisvergleich Bruder, mit ihren eigenen Breitband zu klettern für drei Tage, die Ergebnisse der gesamten Community-Netzwerk wurde geschwärzt, die Nachbarn sind für ihn zu begleichen Rechnungen suchen. Diese Sache sagt uns, in Crawler engagieren kann nicht nur Code schreiben, müssen Sie ein wenig "Jianghu Regeln" kennen.
Warum bleibt Ihr Crawler immer hängen?
Viele Neulinge denken, dass ein zufälliger UA (User Agent) in der Lage sein wird, sich durchzuwurschteln, in Wirklichkeit ist die Windkontrolle auf der Website inzwischen sehr gut. Genau wie bei der Sicherheitstür im Supermarkt, wenn Sie eine Weste wechseln, werden die Leute Sie immer noch erkennen können. Hier ist eineTodestrioFeste IP, hochfrequenter Zugriff, regelmäßige Anfragen, alle drei, das Siegel ist eine Sache von Minuten.
| der Akt des Selbstmords | Wahrscheinlichkeit eines Verbots |
|---|---|
| Einzelne IP Hard Kong | 99% |
| Kein Besuchsintervall | 80% |
| Crawling sensibler Daten | Schreiben des Direktanwalts |
Der richtige Weg zur Eröffnung einer Proxy-IP
Hier empfehlen wir die Verwendung von ipipgo Hause dynamische Wohn-Agent, ihre IP-Pool ist besonders groß, jede Anfrage automatisch ändern IP, genau wie das Spiel Huhn airdrop Lieferungen, jede Landung ist eine neue Identität. Spezifische Konfiguration Code ist lang wie diese (denken Sie daran, die API_KEY zu Ihrem eigenen ändern):
importiert Anfragen
von itertools importieren Zyklus
proxy_pool = ipipgo.get_proxy_pool() holt automatisch den neuesten IP-Pool
proxy_cycler = cycle(proxy_pool)
for page in range(1, 100): proxy = next(proxy_cycler): proxy_cycler.get_proxy_pool()
proxy = next(proxy_cycler)
try: resp = requests.get(url)
resp = requests.get(url, proxies={"http": proxy, "https": proxy})
Verarbeitung der Daten...
except.
ipipgo.report_bad_ip(proxy) ungültige ip melden
Wenn man diese Details nicht beachtet, ist es sinnlos, ein Agent zu sein
1. Sei kein eisernes Huhn.Manche Freunde verwenden eine IP immer wieder, um Geld zu sparen. Es wird empfohlen, die IP alle 5-10 Anfragen zu wechseln. Das Traffic-Abrechnungsmodell von ipipgo ist für dieses Szenario besonders geeignet.
2. Die Kopfzeilen der Anfragen sollten realistisch sein: Verwenden Sie nicht die Standard-Header der Anforderungsbibliothek, sondern kopieren Sie alle Header eines echten Browsers, die mit Cookies und Verweisen.
3. Es gibt in jedem Aspekt dessen, was man tut, einen Silberstreif.In robots.txt ausdrücklich verbieten das Verzeichnis nicht berühren, Crawl-Intervall wird empfohlen, mehr als 3 Sekunden zu setzen!
QA-Zeit: Was Sie vielleicht fragen möchten
F: Ist es absolut sicher, eine Proxy-IP zu verwenden?
A: Genau wie das Tragen von Handschuhen beim Begehen von Verbrechen kann es das Risiko verringern, ist aber kein Freifahrtschein. Der Schlüssel hängt von der Verwendung der Daten ab. Wenn es um die Privatsphäre der Nutzer oder Geschäftsgeheimnisse geht, können selbst die Götter sie nicht retten.
F: Was ist, wenn die IP von ipipgo blockiert ist?
A: Sie verfügen über einen intelligenten Fusionsmechanismus, der ausgefallene Knoten automatisch abschirmt. Bei hohem Gleichzeitigkeitsbedarf wird empfohlen, ein dediziertes IP-Paket zu öffnen, das die Stabilität um mehr als 70% erhöht.
F: Wie kann ich feststellen, ob eine Website meinen Crawler blockiert hat?
A: Das Auftreten eines 403-Fehlercodes, die Anforderung eines Verifizierungscodes und die Rückgabe falscher Daten sind allesamt Gefahrensignale. Zu diesem Zeitpunkt sollten Sie sofort pausieren, die Request-Header-Einstellungen überprüfen oder den ipipgo-Kundendienst kontaktieren, um das IP-Segment zu ändern!
Sagen Sie etwas, das von Herzen kommt.
Gesehen zu viele Programmierer, weil der Crawler in Schwierigkeiten mit dem Rechtsstreit, in der Tat, die meisten der Website ist nicht gegen eine angemessene Datenerhebung, der Schlüssel ist, um mit den Regeln des Spiels entsprechen. Genau wie Angeln, mit der richtigen Angel (Proxy-IP), in den zulässigen Gewässern (öffentliche Daten), Fischerei Compliance Fischarten (nicht-sensible Informationen), so dass das Wasser fließen kann. ipipgo kam vor kurzem mit einem Neuling Schutz-Paket, mit automatischer Compliance-Erkennung, ist es empfehlenswert, dass Freunde, die gerade erst anfangen zu spielen, um zu versuchen, zumindest auf die Grube des 80% weniger Schritt.

