
Schauen Sie hier vorbei, wenn Sie sich mit Python Crawler beschäftigen! Proxy IP zur Verhinderung von Blockierungen!
Kürzlich eine Menge von Datenerfassung Brüder fragen, warum ihre eigenen Crawler läuft auf der Flucht blockiert wurde? Dies ist eine Frage der Tatsache, wie das Spiel zu spielen, um die hängen einen Grund zu öffnen.Die gleiche IP verrückte Anfrage, die Websites der Menschen nicht blockieren Sie blockieren, die?Dieses Mal müssen Sie IP als Ersatz proxy, heute nehmen wir die Python Anfragen Bibliothek als Kastanie.
Einfuhrgesuche
proxies = {
'http': 'http://username:password@gateway.ipipgo.com:9020',
'https': 'http://username:password@gateway.ipipgo.com:9020'
}
Antwort = requests.get('http://目标网站.com', proxies=proxies)
print(antwort.text)
Beachten Sie hier einen wichtigen Punkt:Benutzername und Passwort sollten auf das Konto geändert werden, das Sie bei ipipgo registriert haben.Die Adresse des Proxyservers lautet gateway.ipipgo.com und die Portnummer ändert sich je nach Paket. Es wird empfohlen, direkt auf die offizielle Website zu gehen, um die neueste Konfiguration zu finden, machen Sie sich nichts vor.
Drei Arten von Stealth für Proxy-IPs
Viele weiße Menschen wissen nicht, dass der Agent auch in Ebenen unterteilt ist, hier ist eine einfache Wissenschaft:
Transparenter Agent(die Website kann Ihre echte IP sehen) → Generalvertreter(verbirgt die IP, gibt aber die Identität des Proxys preis) ¡ú Hochversteckte Agenten(Volle Tarnung). Für Crawler müssen Sie hohe Stash zu verwenden, empfehlen wir ipipgo!Diamant-Paketkann die gemessene Anti-Kletter-Erkennungsrate um 70% sinken.
Fünf Leitlinien zur Vermeidung von Fallstricken in der realen Welt
1. Seien Sie nicht faul bei den Timeout-EinstellungenDie Standardzeitüberschreitung für Anfragen ist nicht begrenzt, d. h., wenn Sie auf einen verzögerten Proxy stoßen, bleibt Ihre Anwendung bis zum Ende der Zeit stecken.
response = requests.get(url, proxies=proxies, timeout=10)
2. IP-Rotation sollte randomisiert werdenSeien Sie nicht dumm und verwenden Sie eine feste IP, ipipgo's API kann dynamisch einen Pool von IPs erhalten, so dass jede Anfrage eine neue IP verwendet!
3. Die Behandlung von Ausnahmen darf nicht unterschätzt werdenWiederholen Sie den Versuch automatisch, wenn die Verbindung fehlschlägt, aber beenden Sie ihn nicht.
versuchen.
response = requests.get(url, proxies=proxies)
except requests.exceptions.ProxyError: print("Der Proxy ruckelt, versuchen Sie eine andere IP")
ProxyError: print("Proxy funktioniert nicht, versuchen Sie eine andere IP")
Real Case: Preisüberwachung im E-Commerce
Letztes Jahr habe ich einem Freund geholfen, ein Preisvergleichssystem für ein E-Commerce-Unternehmen zu erstellen, und ich habe das Business-Edition-Paket von ipipgo verwendet.500 IP-Abfragen alle 5 Minuten3 Monate lang, ohne gesperrt zu werden. Hier ist ein Tipp:Verschiedene Produktseiten werden mit unterschiedlichen regionalen IPs aufgerufenwodurch es mehr wie ein echter Benutzer aussieht.
Häufig gestellte Fragen QA
F: Was sollte ich tun, wenn meine Proxy-IP plötzlich ausfällt?
A: Prüfen Sie zunächst Ihren Kontostand und verwenden Sie dann das von ipipgo bereitgestellte Online-Testing-Tool, um die IP-Verfügbarkeit zu messen. Es wird empfohlen, vor jeder Anfrage eine zufällige IP aus dem IP-Pool auszuwählen.
F: Woran erkenne ich, ob ein Agent ein High Stash ist?
A: Besuchen Sie http://httpbin.org/ip. Wenn die zurückgegebene IP-Adresse nicht mit Ihrer echten IP-Adresse übereinstimmt und kein X-Forwarded-For-Header vorhanden ist, handelt es sich um einen echten High Stash.
F: Wie weise ich mehreren Crawlern, die gleichzeitig aktiv sind, IPs zu?
A: Verwenden Sie ipipgo'sDedizierter Kanal mit mehreren ThreadsDie IP-Adresse jedes Threads ist unabhängig von der IP-Adresse der anderen Threads, um Ressourcenkonflikte zu vermeiden.
Sagen Sie etwas, das von Herzen kommt.
Zu Beginn der Nutzung von Proxies auch auf die Grube getreten, die schlimmste Zeit wegen der Verwendung von kostenlosen Proxies führte zu dem Server gehackt wurde. Später wechselte ich zum professionellen Service von ipipgo und fand heraus, dass.Eine stabile Proxy-IP spart wirklich eine Menge Ärger.. Vor allem die intelligente Routing-Funktion, die automatisch den schnellsten Knotenpunkt auswählt, hat es in sich.
Eine letzte Erinnerung für Neulinge:Schreiben Sie Kontopasswörter nicht explizit in Code!Es wird empfohlen, Umgebungsvariablen oder Konfigurationsdateien zu verwenden, Sicherheit zuerst. Wenn es immer noch nicht verstehen, gehen Sie direkt auf der offiziellen Website von ipipgo technischen Kundendienst, die Antwortgeschwindigkeit als einige große Fabriken viel schneller.

