
Pourquoi les robots d'indexation de Zillow sont-ils toujours bloqués ? Vous avez peut-être manqué cette astuce
Les confrères qui s'adonnent au crawling de données immobilières doivent savoir que le système anti-crawling de Zillow est plus strict que les barrières communautaires. La semaine dernière, un vieil homme s'est plaint à moi qu'il venait d'écrire un script de crawler qui a fonctionné pendant moins de 10 minutes et que son adresse IP a été occultée. Ce n'est pas inhabituel, l'essentiel est de savoir comment contourner le système.Trappe de reconnaissance IP.
Pourquoi les adresses IP de proxy ordinaires ne fonctionnent-elles pas bien ?
De nombreux fournisseurs de services proxy sur le marché proposent des adresses IP qui sont utilisées pour trouver trois blessures mortelles :
1. le pool d'adresses IP est trop petit (quelques milliers ne suffisent pas pour assurer la rotation)
2. la durée de survie est trop courte (l'entreprise vient d'être achetée et a ensuite échoué)
3. le mauvais type de protocole (l'utilisation du mauvais protocole proxy expose directement l'identité)
En particulier avec un site du calibre de Zillow, leur système de contrôle des risques identifie les risques liés à l'utilisation de la technologie de l'information.Centre de données IPLes caractéristiques de la C'est comme si un agent de sécurité reconnaissait une voiture de livraison, y accédait avec l'IP d'une salle de serveur normale et se faisait repérer en quelques minutes.
Travaux pratiques : obtenir des solutions personnalisées avec ipipgo
Nous partageons ici un plan de configuration dont l'efficacité a été testée par notre équipe (j'ai personnellement testé 3 semaines d'exploration continue sans retournement) :
importation de requêtes
from itertools import cycle
Proxy résidentiels dynamiques fournis par ipipgo
proxy_list = [
'http://user:pass@gateway.ipipgo.net:3000',
'http://user:pass@gateway.ipipgo.net:3001', ...
... Préparer au moins 50 entrées
]
proxy_pool = cycle(proxy_list)
for page in range(1,100) : proxy = next(proxy_pool)
proxy = next(proxy_pool)
try : response = requests.get()
response = requests.get(
f'https://www.zillow.com/search/?page={page}',
proxies={'http' : proxy, 'https' : proxy}, timeout=15
timeout=15
)
N'oubliez pas d'ajouter des délais aléatoires et une rotation UA.
sauf.
Supprimer automatiquement les proxies invalides
proxy_list.remove(proxy)
Voici l'essentiel, l'ipipgo'sAgents résidentiels dynamiquesIl y a deux cascades :
1. simulation du comportement d'un utilisateur réel - Chaque IP demandée provient d'une maison à large bande réelle
2) Correspondance automatique de la géolocalisation - Utilisez l'IP de sortie locale si vous voulez augmenter le prix de la maison.
Guide de prévention des pièges de la configuration des paramètres
Il ne suffit pas d'avoir un bon agent, les paramètres ne sont pas bien réglés, comme d'habitude, la voiture. Ces paramètres doivent être réglés correctement :
| terme de paramètre | réglages erronés | réglage correct |
|---|---|---|
| intervalle de demande | Fixe 2 secondes | Aléatoire 5-15 secondes |
| délai d'attente | Illimité par défaut | Pas plus de 20 secondes. |
| Tentatives | réessayer indéfiniment | Jusqu'à 3 fois |
Foire aux questions QA
Q : J'ai déjà utilisé une adresse IP proxy et je suis toujours bloqué ?
R : Vérifiez si vous utilisez un proxy transparent (utilisez le proxy high stash d'ipipgo pour cacher l'en-tête X-Forwarded-For).
Q : Que se passe-t-il si j'ai besoin de connaître les prix des logements dans une ville donnée ?
R : ipipgo prend en charge le filtrage des adresses IP par ville. Par exemple, pour extraire des données sur Los Angeles, choisissez les pools d'adresses IP résidentielles de Californie.
Q : Comment casser le CAPTCHA lorsque je le rencontre ?
R : Ne soyez pas rigide, changez d'IP immédiatement lorsque vous rencontrez le CAPTCHA (nous vous suggérons de coopérer avec l'API de changement instantané d'ipipgo).
Pourquoi recommandez-vous ipipgo ?
Nous avons testé une douzaine de fournisseurs de services et avons finalement choisi ipipgo pour ces trois raisons :
1. exclusifPool dynamique IP résidentiel(D'autres utilisent des IP statiques à plusieurs reprises)
2. changement automatique d'IP par session (pas besoin de nettoyer les cookies manuellement)
3. la prise en charge de solutions de crawler personnalisées à la demande (leur service technique à la clientèle peut vraiment résoudre les problèmes)
Récemment, ils ont organisé un événement au cours duquel les nouveaux utilisateurs se sont vus offrirEssai de trafic de 5GBLa première suggestion est d'aller ramasser de la laine pour essayer l'eau. Après tout, c'est la pratique qui fait la vraie connaissance, il suffit de regarder les tutoriels pour ne pas manipuler les hooligans.

