
Le seuil invisible de la collecte de données de Zillow
Les vieux briscards de l'analyse des données immobilières savent tous que ce site Zillow cache une montagne d'or, mais qu'il faut vraiment aller creuser quand on est toujours arrêté devant la porte. La semaine dernière, un ami de Hangzhou s'est plaint d'avoir écrit un script Python pour suivre la tendance des prix de l'immobilier, et l'IP a été bloquée à mort juste une demi-heure après qu'il l'ait exécuté. Cette situation est trop fréquente, et de nombreux débutants ont tendance à l'ignorer !Les trois axes de l'anti-crawl des sites webLes méthodes utilisées sont les suivantes : détection de la fréquence IP, reconnaissance de la signature comportementale, vérification de l'en-tête de la requête.
Les défauts fatals des agents ordinaires
Beaucoup de fournisseurs de services proxy sur le marché soufflent le ciel, l'utilisation réelle de l'exposé. L'année dernière, j'ai testé un certain fournisseur de services qui prétendait disposer d'un million de pools d'adresses IP :
import requêtes
proxies = {'http' : 'http://123.xx.xx.xx:8080'}
resp = requests.get('https://www.zillow.com/', proxies=proxies)
print(resp.status_code) La probabilité de renvoyer 403 est aussi élevée que 60%
ce type deAgents de qualité médiocreLe plus pitoyable, c'est que cela produira des dommages collatéraux - non seulement le site web cible vous bloquera, mais vous risquez également de voir votre compte supprimé par le fournisseur de services proxy. En particulier pour la collecte de données sensibles telles que Zillow, les exigences en matière de pureté de l'IP sont beaucoup plus élevées que pour les sites web ordinaires.
Des solutions concrètes pour l'ipipgo
Nous avons apporté un soutien technique à plus de 20 équipes chargées des données immobilières et avons conclu queProgramme de protection à trois niveaux: :
Exemple de configuration d'une IP exclusive avec ipipgo
from selenium.webdriver import ChromeOptions
options = ChromeOptions()
options.add_argument("--proxy-server=http://user:pass@gateway.ipipgo.com:9023")
options.add_argument("--disable-blink-features=AutomationControlled")
Il y a trois détails clés à saisir :
1. rapport de mélange pour la période d'enquête résidentielleIl est recommandé de changer une IP résidentielle pour chaque 50 pages collectées.
2. gigue de l'intervalle de demande: Ne pas utiliser un délai fixe de 3 secondes, mais plutôt un délai aléatoire de 2 à 5 secondes.
3. l'empreinte de l'en-têteLe champ Sec-Ch-Ua-Platform doit notamment être généré de manière dynamique.
Une liste de configurations que même un novice peut commencer à utiliser
Voici un formulaire de configuration prêt à l'emploi, qu'il suffit de copier :
| terme de paramètre | valeur recommandée | mise en garde |
|---|---|---|
| fil simultané | ≤3 | Plus de 5 fils seront bloqués |
| Temps de survie IP | 30 minutes. | La commutation automatique peut être réglée dans l'arrière-plan ipipgo |
| réglage du délai d'attente | 15 secondes. | Trop court, vous manquerez des données. |
| Erreur Réessai | 2 fois | Plus de 3 déclencheurs CAPTCHA |
Foire aux questions QA
Q : Pourquoi est-il toujours reconnu après l'utilisation d'un proxy ?
R : Quatre-vingt-dix pour cent sont des fuites d'empreintes digitales du navigateur, n'oubliez pas d'ajouter ces deux lignes dans le code :
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_argument("--disable-web-security")
Q : Dois-je assurer moi-même la maintenance de l'IP d'ipipgo ?
R : Pas du tout ! LeurSystème de routage intelligentIl exclura automatiquement l'IP bloquée, ce qui est beaucoup plus inquiétant que de la modifier manuellement. Un client de Nanjing a fonctionné pendant 72 heures sans interruption, et la stabilité du test est vraiment excellente.
Q : Qu'advient-il des données collectées ?
R : Concentrez-vous sur ces trois domaines :
1. l'historique des transactions dans la balise zsgd-home-details
2) Attributs Data-json des graphiques linéaires de prévision des prix des logements
3. les enregistrements de rénovation dans les descriptions d'annonces (correspondance régulière avec le mot-clé brenob)
Guide de prévention des renversements
Enfin, l'équipe anti-crawling de Zillow a récemment mis à jour son modèle de détection, et ce sont deux nids de poule dans lesquels il ne faut surtout pas s'engouffrer :
1) Ne vous lancez pas dans l'exploitation minière à 3 heures du matin (leurs défenses sont plus sensibles à cette heure de la journée).
2. rencontrer le code d'authentification et renoncer directement à l'IP actuelle, utiliser le code d'authentification d'ipipgoFonction Auto FuseIl est plus rentable de découper une nouvelle propriété intellectuelle que d'utiliser la partie dure de la propriété.
Si vous êtes à la recherche d'un service proxy fiable, rendez-vous directement sur le site web d'ipipgo et ouvrez un compte de test. Ils offrent 5G de trafic aux nouveaux utilisateurs, ce qui est suffisant pour vérifier si la solution de collecte est fiable ou non. N'oubliez pas d'utiliser le code promoZILLOW2024Pouvoir bénéficier d'une réduction de 20 % est bien plus intéressant que les revendeurs de produits d'occasion présents sur le marché.

