
I. Warum werden Crawling-Daten immer rausgeschmissen? Versuchen Sie, Ihre Weste zu wechseln
Wenn Sie gerade erst anfangen, Python zur Datenerfassung zu verwenden, werden Sie wahrscheinlich auf diesen Mist stoßen: einfach zwei Seiten einer Website crawlen, dann das CAPTCHA aufpoppen lassen und dann nach einer Weile die IP direkt sperren. Das ist so, als würde man in die Kantine gehen, um zu essen, und von der Tante in der Warteschlange erwischt werden, die einem dann direkt den schwarzen Reis gibt.
Jetzt ist es an der Zeit, die Proxy-IP-Methode anzuwenden. Das ist so, als würden Sie jedes Mal, wenn Sie in die Kantine gehen, Ihre Essenskarte wechseln, damit die Kantinentante Sie nicht als dieselbe Person erkennt. Wir empfehlenipipgoProxy-Dienste, die sich auf die Bereitstellung solcher "Mantel- und Degen"-Dienste spezialisiert haben, verfügen über einen ausreichend großen IP-Pool, um schnell wechseln zu können.
Zweitens: Abgelegte Jacken
Laden Sie zuerst diese beiden Typen:
pip install Anfragen
pip install beautifulsoup4
(nach einem Verb der Bewegung, das eine Bewegung vom Sprecher weg anzeigt)ipipgo offizielle WebsiteHolen Sie sich einige kostenlose Test-IPs, deren Home-API wie folgt aussieht:
Einfuhrgesuche
proxy_api = "https://api.ipipgo.com/get?token=你的令牌"
resp = requests.get(proxy_api)
proxy = resp.json()['proxy'] get fresh ip
Drittens, die tatsächliche Abnutzung Weste kriechen Daten
Basisversion der Weste zum Tragen:
proxies = {
'http': 'http://'+proxy,
'https': 'https://'+proxy
}
resp = requests.get('Ziel-URL', proxies=proxies, timeout=10)
Fortgeschrittene Spieler können spielenAutowechsel::
von itertools importieren Zyklus
Eine Reihe von IPs von ipipgo holen
proxy_liste = ['111.222.333.444:8888', '555.666.777.888:9999']
proxy_pool = cycle(proxy_list)
for page in range(1,6): current_proxy = next(proxy_list)
aktuelles_proxy = nächstes(proxy_pool)
aktuell_proxy = next(proxy_pool): aktuell_proxy = next(proxy_pool)
resp = requests.get(url, proxies={'http': current_proxy})
Daten verarbeiten...
except.
print(f"{current_proxy} this harness is leaking, switch to the next one")
Viertens: Worauf muss ich beim Tragen einer Weste achten?
1. nicht zu viel herumalbern:Auch wenn Sie eine Weste haben, sollten Sie die Website nicht zu Tode wickeln und das Tempo des Zugangs kontrollieren.
(2) Die Tarnung sollte vollständig sein:Denken Sie daran, einen richtigen User-Agent in den Header zu setzen, nicht den Standard von Python!
| Scheißbetrieb | richtige Körperhaltung |
|---|---|
| Keine Kopfzeilen. | Getarnt als Chrome |
| 10 Anfragen pro Sekunde | Zufallsintervall 1-3 Sekunden |
V. Gemeinsame QS für Rollover-Standorte
F: Was soll ich tun, wenn meine Weste plötzlich nicht mehr richtig funktioniert?
A: 80% der IP abgelaufen ist, verwenden Sie ipipgo's automatischen Ersatz API, ihre IP Überlebenszeit als andere Eltern!
F: Ist es langsamer, wenn ich einen Proxy verwende?
A: freie Agenten sind so gut, ist es empfehlenswert, dass ipipgo's kostenpflichtige Pakete, haben sie eine besondere High-Speed-Kanäle
F: Wird man Sie zum Tee einladen?
A: Crawlen Sie keine sensiblen Daten, halten Sie sich an die robots.txt-Bestimmungen der Website und überprüfen Sie die Nutzungsbedingungen, wenn Sie ipipgo verwenden!
VI. leitfaden für den Kauf von westen
Es gibt eine ganze Reihe von Proxy-Anbietern auf dem Markt, aber viele von ihnen sind eine Katastrophe:
- Sie behaupten, Millionen von IPs zu haben, aber nicht viele davon funktionieren tatsächlich.
- Nicht genug Anonymität, um die echte IP in Minutenschnelle aufzudecken
- Der Kundendienst ist wie ein Roboter, niemand kümmert sich darum, wenn etwas schief geht.
ipipgoDie Arbeit an diesem Stück ist zuverlässiger:
1. exklusiver IP-Pool, keine "Klamotten" mit anderen klauen
2. die Unterstützung mehrerer HTTPS/SOCKS5-Protokolle
(3) Mit einem professionellen technischen Team im Auge zu halten, kann die IP-Überlebensrate mehr als 95% sein.
4. 3-Tage-Testversion für neue Benutzer, die keine Angst haben, angepriesen zu werden.
Schließlich, obwohl Crawler sind gut, nicht gierig sein. Mit ipipgo solche regelmäßigen Dienstleister, sowohl um sich zu schützen und wird nicht auf die Website, die die langfristige Lösung ist hinzuzufügen. Wenn Sie gerade erst anfangen zu lernen, ist es empfehlenswert, dass Sie durch das Spielen mit ihren kostenlosen Paketen beginnen, und dann auf die erweiterten Funktionen gehen, wenn Sie den Dreh raus haben.

