
Crawler ist blockiert IP?
Vor kurzem in der GitHub Pick-and-Pull-Projekt Quellcode, immer 403 blockiert den Weg sein. Versucht eine Vielzahl von User-Agent-Tarnung oder nicht, und dann fragte ein alter Fahrer, um Datenerfassung zu tun, nur um zu wissen, dass jetzt die Website gelernt haben, fein, direkt blockiert IP-Adresse. Dieses Mal müssen Sie einen Proxy-IP, um als Stand-in-Akteur zu handeln, so dass der Server denkt, dass jeder Besuch eine andere Person ist.
Warum einen Residential Proxy verwenden? Serverraum-IPs sind veraltet.
Eine Menge von Neulingen sind immer noch mit kostenlosen IPs, und als Ergebnis, sie kletterte nur zwei Seiten blockiert werden. Nun ist die Website Anti-Climbing-Mechanismus des Diebes fein, siehe die IP-Abschnitt des Raumes direkt schwarz. ipipgo dynamischen Wohn-Agent mit einem echten Haus Breitband-IP, wie eine echte Person im Internet surfen, ist die Erfolgsquote direkt verdoppelt.
importiert Anfragen
von itertools importieren Zyklus
Liste der Proxys von ipipgo
proxies = [
'http://user:pass@gateway.ipipgo.net:3000',
'http://user:pass@gateway.ipipgo.net:3001',
'http://user:pass@gateway.ipipgo.net:3002'
]
proxy_pool = cycle(proxies)
url = 'https://github.com/search?q=python+spider'
for page in range(1,6): proxy = next(proxy_pool)
proxy = next(proxy_pool)
try.
response = requests.get(
f "{url}&p={page}",
proxies={"http": proxy, "https": proxy}, timeout=10
timeout=10
)
print(f "Seite {page} erfolgreich gecrawlt")
except.
print("IP ändern und weiter so!")
Drei Tipps zum Spielen von ipipgo Proxy-Pools
Erster Zug:Erstellen Sie einen "Crawler-only"-Kanal im Hintergrund, wählen Sie das Dynamic Residential Standard Edition-Paket, das Pay-per-Use ohne Verschwendung unterstützt. Es wird empfohlen, mehr als 3 Kanäle gleichzeitig zu öffnen und in Sekundenschnelle zu wechseln, wenn Sie auf ein Verbot stoßen.
Zweiter Zug:Verwenden Sie ihre API, um IP dynamisch zu erhalten, denken Sie daran, 3 Sekunden Timeout zu setzen, um automatisch zu wechseln. Messung von 50 Mal pro Stunde, um die IP zu ändern, läuft für 12 Stunden ohne Auslösung Anti-Climbing.
| Paket Typ | Anwendbare Szenarien | Preisvorteil |
|---|---|---|
| Dynamisches Wohnen (Standard) | Kleine und mittlere Crawler-Projekte | 7,67 $/GB |
| Dynamischer Wohnungsbau (Unternehmen) | verteiltes Crawler-System | 9,47 Yuan/GB |
Dritter Zug:Fügen Sie einen Mechanismus zur Wiederholung von Ausnahmen in den Crawler-Code ein. Es wird empfohlen, die Wiederholungsbibliothek von Python zu verwenden, 10 Wiederholungsintervalle zu konfigurieren und persönlich zu testen, ob die GitHub-Starhistorie so stabil wie ein alter Hund ist.
Merkblatt "White Common Pitfalls
Q:Warum sind Sie immer noch gesperrt, obwohl Sie einen Proxy verwenden?
A:Die Qualität des Proxy ist nicht gut, kostenloser Proxy oft von vielen Menschen geteilt. ipipgo exklusive statische Wohn-IP, 35 Yuan pro Monat, dass, speziell auf dieses Problem zu lösen.
Q:Warum kann ich die Geschwindigkeit des Crawlers nicht erhöhen?
A:Verwenden Sie nicht nur einen einzigen Thread! Stellen Sie asynchrone Anfragen mit aiohttp, öffnen Sie 20 Verbindungen gleichzeitig und denken Sie daran, für jede Verbindung einen anderen Proxy-Kanal zu verwenden.
Q:Was ist, wenn ich ein CAPTCHA bearbeiten muss?
A:In ihrem Hintergrund zu öffnen, die TK Standleitung Service, kommt diese Linie mit menschlichen Überprüfung Crack, geeignet für die Ergreifung von Open-Source-Projekte begrenzte Zeit STAR so eine geschmacklose Operation.
Sagen Sie die Wahrheit.
Ich habe sieben oder acht Proxy-Dienste verwendet, und das Erstaunlichste an ipipgo ist die Funktion "IP warm-up". In der offiziellen Start Crawling vor dem ersten Proxy-IP, um ein paar gewöhnliche Websites zu besuchen, und verwenden Sie dann die IP nach der Website Windkontrolle Beobachtungszeitraum, dieser Trick macht meine Sammlung Erfolgsquote stieg von 47% bis 89%.
Seit kurzem gibt es eine neue Funktion, mit der man den geografischen Standort und die Betreiberinformationen für jede IP direkt im Client sehen kann. Nachdem ich herausgefunden hatte, dass es sich bei einer bestimmten britischen IP-Adresse um einen Vodafone-Anschluss handelte, habe ich damit die öffentlichen Daten des Londoner Unternehmens gecrawlt, und es war eine sichere Sache!

