
Warum werden die Crawler von Zillow immer blockiert? Diesen Trick haben Sie vielleicht übersehen
Brüder, die sich mit dem Crawlen von Immobiliendaten beschäftigen, sollten wissen, dass das Anti-Crawling-System von Zillow strenger ist als die Community Gates. Letzte Woche beschwerte sich ein alter Mann bei mir, dass er gerade ein Crawler-Skript geschrieben hatte, das weniger als 10 Minuten lief, und seine IP-Adresse wurde geschwärzt. Das ist nicht ungewöhnlich, man muss nur wissen, wie man das System umgeht.IP-Erkennungsfalle.
Warum funktionieren normale Proxy-IPs nicht gut?
Viele Proxy-Dienstleister auf dem Markt stellen IPs zur Verfügung, die zum Auffinden von drei tödlichen Verletzungen verwendet werden:
1. der IP-Pool ist zu klein (ein paar Tausend sind einfach nicht genug für die Rotation)
2. die Überlebenszeit ist zu kurz (gerade gekauft und dann ausgefallen)
3. falscher Protokolltyp (bei Verwendung des falschen Proxy-Protokolls wird die Identität direkt preisgegeben)
Insbesondere bei einer Website vom Kaliber von Zillow identifiziert ihr Risikokontrollsystem dieRechenzentrum IPDie Merkmale des Das ist so, als würde ein Wachmann einen Lieferwagen erkennen, mit einer normalen Serverraum-IP darauf zugreifen und innerhalb von Minuten auffliegen.
Praktische Anwendung: maßgeschneiderte Lösungen mit ipipgo
Hier teilen wir einen Konfigurationsplan, den unser Team als effektiv getestet hat (ich persönlich habe 3 Wochen ununterbrochenes Crawling ohne Flipping getestet):
importiert Anfragen
von itertools importieren Zyklus
Dynamische Wohn-Proxys, bereitgestellt von ipipgo
proxy_list = [
'http://user:pass@gateway.ipipgo.net:3000',
'http://user:pass@gateway.ipipgo.net:3001', ...
... Mindestens 50 Einträge vorbereiten
]
proxy_pool = cycle(proxy_list)
for page in range(1,100): proxy = next(proxy_pool)
proxy = next(proxy_pool)
try: response = requests.get()
Antwort = requests.get(
f'https://www.zillow.com/search/?page={page}',
proxies={'http': proxy, 'https': proxy}, timeout=15
timeout=15
)
Denken Sie daran, zufällige Verzögerungen und UA-Rotation hinzuzufügen.
außer.
Ungültige Proxys automatisch entfernen
proxy_list.remove(proxy)
Und jetzt kommt der Clou: ipipgo'sDynamische WohnungsvermittlerEs gibt zwei Stunts:
1. reale Simulation des Nutzerverhaltens - Jede angefragte IP kommt von einem realen Heim-Breitbandanschluss
2. automatischer Abgleich mit dem Geostandort - Verwenden Sie die lokale Ausfahrt IP, wenn Sie den Preis des Hauses erhöhen wollen.
Leitfaden zur Vermeidung von Fallstricken bei der Parameterkonfiguration
Es reicht nicht aus, einen guten Agenten zu haben, die Parameter sind nicht gut eingestellt, wie üblich, das Auto. Diese Parameter müssen richtig eingestellt werden:
| Parameterterm | fehlerhafte Einstellungen | richtige Einstellung |
|---|---|---|
| Abfragezeitraum | 2 Sekunden festgelegt | Zufällig 5-15 Sekunden |
| Timeout | Unbegrenzt standardmäßig | Nicht länger als 20 Sekunden. |
| Wiederholungen | Unbegrenzt wiederholen | Bis zu 3 Mal |
Häufig gestellte Fragen QA
F: Ich habe bereits eine Proxy-IP verwendet und bin immer noch blockiert?
A: Prüfen Sie, ob Sie einen transparenten Proxy verwenden (verwenden Sie den High Stash Proxy von ipipgo, um den X-Forwarded-For Header zu verbergen)
F: Was ist, wenn ich die Immobilienpreise einer bestimmten Stadt durchsuchen muss?
A: ipipgo unterstützt das Filtern von IPs nach Städten, z.B. um Daten aus Los Angeles zu crawlen, wählen Sie ihre kalifornischen Wohn-IP-Pools
F: Wie kann ich das CAPTCHA umgehen, wenn ich es sehe?
A: Seien Sie nicht starr, wechseln Sie die IP sofort, wenn Sie auf CAPTCHA stoßen (wir empfehlen die Zusammenarbeit mit ipipgo's instant switching API)
Warum empfehlen Sie ipipgo?
Wir haben ein Dutzend Dienstanbieter getestet und uns schließlich wegen dieser drei Dinge für ipipgo entschieden:
1. exklusivDynamischer IP-Pool für Privatpersonen(Andere verwenden immer wieder statische IPs.)
2. automatische IP-Änderung pro Sitzung (keine Notwendigkeit, Cookies manuell zu löschen)
3. die Unterstützung für bedarfsgerechte Crawler-Lösungen (der technische Kundendienst kann Probleme wirklich lösen)
Kürzlich gab es eine Veranstaltung, bei der neue Nutzer5GB Traffic TestversionDer erste Vorschlag ist zu gehen woolgathering, um das Wasser zu versuchen. Nach allem, macht die Praxis wahres Wissen, schauen Sie sich die Tutorials nicht manipulieren sind Hooligans.

