
Die Erfassung von Daten ohne eine Proxy-IP kann nicht wirklich funktionieren.
Brüder in Netzwerk-Crawler beschäftigt verstehen, dass die Ziel-Website Anti-Climbing-Mechanismus mehr und mehr rücksichtslos, gewöhnliche IP Minuten blockiert werden. Dieses Mal haben wir auf Proxy-IP verlassen, um Guerilla-Krieg zu spielen, heute werden wir Ihnen beibringen, wie man Proxy-IP und Crawler-Roboter, um ein Stück zu bekommen.
Die drei wichtigsten Achsen des automatisierten Crawling
Erste Axt: Der dynamische IP-Pool muss groß genug sein. Genauso wie das Spiel genügend Blutkonserven haben muss, müssen wir einen IP-Pool haben, der jederzeit geändert werden kann. Hier müssen wir dafür sorgen, dass unsere eigenen BrüderipipgoSein IP-Pool wird täglich mehr als 500.000 Mal mit allen Protokolltypen aktualisiert.
Zweite Axt.Häufigkeit der Anfragen: Hier ist Vorsicht geboten. Seien Sie nicht dumm mit festen Anfragen pro Sekunde, versuchen Sie etwas wie zufällige Intervalle (0,5-3 Sekunden).
Dritte Axt.Der Header der Anfrage muss angepasst werden. Ändern Sie den User-Agent bei jeder Anfrage zufällig, damit die Seite denkt, dass Sie eine andere Person besuchen.
Anfragen importieren
von bs4 importieren BeautifulSoup
importieren random
importiere Zeit
def smart_crawler(url):
proxies = {
'http': 'http://user:pass@gateway.ipipgo.com:9020',
'https': 'http://user:pass@gateway.ipipgo.com:9020'
}
headers = {
'User-Agent': random.choice(UA_LIST)
}
time.sleep(random.uniform(0.5, 3))
response = requests.get(url, proxies=proxies, headers=headers)
Hier ist der Parsing-Code...
Praxisfall: Roboter zur Preisüberwachung im elektronischen Handel
Kürzlich half ein Freund, einen Preisvergleichsroboter zu bekommen, vor allem, um die Preisschwankungen eines bestimmten Schatzes einen bestimmten Osten zu starren. Mit ipipgo dynamische Wohn-Proxy, mit der folgenden Konfigurationstabelle, stabil läuft seit zwei Monaten ohne Umdrehen:
| Baugruppen | Konfigurationsprogramm |
|---|---|
| IP-Typ | Dynamische Wohnungsvermittler |
| Gleichzeitigkeit | 10 Fäden |
| Abfragezeitraum | 5-15 Sekunden zufällig |
| scheitern und erneut versuchen | 3-fache automatische IP-Umschaltung |
Häufig gestellte Fragen QA
F: Was kann ich gegen die langsame Proxy-IP-Geschwindigkeit tun?
A: Überprüfen Sie zunächst den Protokolltyp, mit ipipgo's socks5 Protokoll ist im Allgemeinen schneller als http um 30%. dann ist es, einen Knoten in der Nähe des Zielservers zu wählen.
F: Wie prüfe ich die Qualität der Proxys?
A: Es wird empfohlen, die von ipipgo bereitgestellte Testschnittstelle zu verwenden, um die Anonymität und die Antwortzeit der IP direkt zu ermitteln. Sie können auf diese Weise testen, wenn Sie Ihr eigenes Skript schreiben:
Testadresse = "https://test.ipipgo.com/ipinfo"
Antwortzeit = requests.get(Testadresse, proxies=proxy).elapsed.total_seconds()
Die Wahl des richtigen Proxy-Anbieters ist schon die halbe Miete
Der Markt ist eine bunte Mischung von Agenturdienstleistern, und es wird empfohlen, sich auf diese drei Punkte zu konzentrieren:
1. ob es einen selbstgebauten Serverraum gibt (ipipgo hat 8 selbstgebaute Serverräume im Land)
2. ob es Pay-per-Use unterstützt (Neulingen wird empfohlen, mit dem ipipgo-Erfahrungspaket zu beginnen)
3. ob die API-Dokumentation vollständig ist (die Dokumentation seiner Familie kann sogar von Grundschülern gelesen werden)
Schließlich geben einen Rat: nicht gierig und billig mit kostenlosen Agenten, leichte Datenlecks, schwere Konto gesperrt ist. Mit ipipgo diese regelmäßige Armee, aus dem Problem kann auch Kundenservice Mädchen nörgeln finden, es riecht nicht gut?

