
Erstens: Warum müssen Sie eine Proxy-IP verwenden, um Google-Standortdaten zu erhalten?
Engagierte Datensammler wissen, dass Google Maps besonders empfindlich auf Crawler reagiert. Sie nehmen Ihre eigene Breitbandverbindung zum Crawlen, nicht mehr als eine halbe Stunde quasi zu Ihrer IP schwarz. Zu dieser Zeit müssen Sie auf Proxy-IP zu verlassenRisikobeteiligungEs ist wie ein Guerillakrieg, bei dem man einen Schuss abgibt und dann weiterzieht.
Gewöhnliche Proxy-IPs sind leicht zu enttarnen, insbesondere Serverraum-IPs, die Google auf einen Blick erkennen kann. Dies ist der richtige Zeitpunkt für die Verwendung vonWohnungsvermittler, die sich als echter Benutzer ausgeben. Zum Beispiel mit ipipgo dynamische Wohn-IP, jede Anfrage automatisch ändern IP, kann die Erfolgsquote mehrmals verdoppelt werden.
Zweitens: Hand lehrt euch, Reptilienschilde zu bauen
Lassen Sie uns mit einem praktischen Konfigurationsplan beginnen:
importiert Anfragen
von itertools importieren Zyklus
Proxy-Schnittstelle für ipipgo
proxy_list = [
'http://user:pass@gateway.ipipgo.com:8000',
'http://user:pass@gateway.ipipgo.com:8001'.
Mindestens 20 rotierende IPs vorbereiten
]
proxy_pool = cycle(proxy_list)
def get_poi(keyword).
proxy = next(proxy_pool)
try.
response = requests.get(
'https://www.google.com/maps/search/'+Schlüsselwort, proxies={'http': proxy, 'https': proxy, 'https': proxy
proxies={'http': proxy, 'https': proxy}, timeout=10
timeout=10
)
Fügen Sie hier die Parsing-Logik hinzu
return data
except Exception as e.
print(f'{proxy} hung, next one')
return get_poi(Schlüsselwort)
Konzentrieren Sie sich auf diese drei Punkte:
1. beantragen Sie IntervalleSeien Sie nicht zu regelmäßig, vorzugsweise mit zufälligen Verzögerungen (1-3 Sekunden)
2. der Benutzer-AgentUm der echten Browserversion zu entsprechen
3. die Captcha-VerarbeitungWir müssen eine Kodierungsplattform für die Sicherung vorbereiten.
Proxy-IP-Auswahl zur Vermeidung des Pitguides
Es gibt alle möglichen Agententypen auf dem Markt, deshalb gebe ich Ihnen eine Vergleichstabelle:
| Typologie | Erfolgsquote | (Herstellungs-, Produktions- usw.) Kosten | Empfohlene Szenarien |
|---|---|---|---|
| Serverraum IP | Weniger als 30% | (den Kopf) senken | nicht empfohlen |
| Statische Häuser | 50% oder so | Mitte | Niederfrequenzerfassung |
| Dynamischer Wohnungsbau | 85% und höher | hoch | Google Map-Sammlung |
Hervorgehoben sind hier ipipgo'sDynamische WohnungsvermittlerDer aktuelle Test kann Google Maps API ausführen, um 800-1000 Daten pro Stunde stabil abzufangen. Ihr IP-Pool wird schnell aktualisiert, aber auch mit automatischer Authentifizierung, ohne das alte Konto-Passwort zu werfen.
IV. praktische, häufig gestellte Fragen QA
Q:Warum wurde ich gesperrt, obwohl ich einen Proxy verwendet habe?
A: Überprüfen Sie drei Dinge: 1. ob der Header der Anfrage einen Fingerabdruck des Browsers enthält 2. ob die IP von mehr als einer Person geteilt wird 3. ob das Betriebsverhalten zu mechanisch ist
F: Was kann ich tun, wenn ich mit der Akquisition nicht zurechtkomme?
A: Es wird empfohlen, eine Kombination aus asynchroner Verkettung und Multithreading zu verwenden, aber achten Sie auf die Gleichzeitigkeitsgrenze der einzelnen Unterkonten von ipipgo (empfohlen werden nicht mehr als 5 Threads)
F: Was soll ich tun, wenn beim Parsen der Daten immer ein Fehler auftritt?
A: Google Seite Struktur ändert sich oft, ist es empfehlenswert, xpath und regelmäßige Doppel-Versicherung zu verwenden, oder über die Drittanbieter-Parsing-Bibliotheken wie pyquery
V. Grundlegende Fertigkeiten für fortgeschrittene Spieler
Einen kalten Trick teilen: Verwenden SieGeolocation Binding. Wenn Sie z.B. ein Café in New York besteigen, werden Sie ausschließlich lokale Wohn-IPs in New York verwenden. ipipgo unterstützt die IP-Positionierung auf der spezifizierten Stadtebene, so dass die gesammelten POI-Daten genauer sind und Sie die Auslösung der geografischen Erkennung vermeiden können.
Hier ist ein weiterer Trick, um Parameter zu setzen: Fügen Sie in der Anfrage-URL&hl=de&gl=USDiese beiden Parameter zwingen zur Rückgabe der englischen Ergebnisse, das Datenformat ist standardisierter und leichter zu analysieren.
Schließlich, um den Neuling zu erinnern: nicht kaufen, billige Junk-Proxy, blockiert werden IP ist eine kleine Sache, oder die ganze Sammlung Projekt neu zu schreiben haben. Verwenden Sie ipipgo diese Art von professionellen Dienstleistern, obwohl mehr Geld ausgeben, aber sparen Sie Zeit Kosten genug, um die Hauptstadt zurück.

