
Le plus grand casse-tête de Zillow : le blocage des adresses IP
Les conducteurs plus âgés qui ont parcouru les données immobilières savent que le mécanisme anti-crawl de Zillow est plus étanche qu'un portail de quartier. Et voici le pire.L'adresse IP est bloquéeSi vous utilisez votre propre haut débit, vous ne pourrez pas toucher à Zillow ce mois-ci. Si vous utilisez votre propre haut débit, vous ne pourrez plus toucher à Zillow ce mois-ci.
La semaine dernière, un ami qui effectue des analyses de propriétés à l'étranger est venu me voir pour se plaindre, disant qu'il avait passé trois jours à écrire un script de crawler, et qu'après avoir fonctionné pendant une demi-heure, il s'était vu bloquer l'accès à plus de 20 adresses IP.Le service d'agent résidentiel d'ipipgoIl sera capable de casser le jeu, leur pool d'IP dynamiques est suffisamment grand pour changer automatiquement l'IP de sortie pour chaque demande, et la collecte continue de 6 heures du pro-test n'a pas déclenché le bannissement.
Trois étapes clés pour localiser les données JSON
Ouvrez Chrome Developer Tools (F12), passez à l'onglet Network, puis appuyez sur n'importe quel filtre de la page de recherche Zillow, tel que Adjust Price Range (Ajuster la fourchette de prix). Regarder.Demande de type XHRLa clé est de rechercher un lien de requête qui contient "api/search".
Voici un conseil : dans la boîte de filtre, tapez/searchVous pouvez localiser rapidement la demande cible. En cliquant sur l'enregistrement de la demande correspondante, vous pouvez voir dans l'onglet "Aperçu" les éléments suivantsDonnées JSON structuréesqui masque plus de 20 données essentielles telles que les coordonnées de l'annonce, les plans, l'historique des prix, etc.
| nom du champ | type de données | valeur de l'exemple |
|---|---|---|
| zpid | numérique | 1234567890 |
| prix | chaîne de caractères (informatique) | “$1,235,000” |
| chambres à coucher | entier (math.) | 3 |
Conseils de configuration de l'IP proxy dans le monde réel
Un exemple utilisant la bibliothèque de requêtes de Python, en mettant l'accent sur la fonctioncollecteurs camouflagerépondre en chantantRotation des agentsDeux liens. Voici un piège : Zillow vérifie le type d'appareil de l'agent utilisateur, il est donc recommandé d'utiliser la dernière version de l'en-tête UA de Chrome, et non pas ces UA de crawler pourris.
import requests
from ipipgo import get_proxy Nous utilisons ici le SDK ipipgo.
proxy = get_proxy(type='residential') le proxy résidentiel est plus proche de l'utilisateur réel
headers = {
User-Agent' : 'Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit/537.36...' ,
'Accept-Language' : 'en-US,en;q=0.9'
}
response = requests.get(
'https://www.zillow.com/api/search', , 'Accept-Language' : 'en-US,en;q=0.9' }
proxies={"http" : proxy, "https" : proxy},
headers=headers,
timeout=10
)
prendre noteLe délai d'attente ne doit pas être inférieur à 8 secondes.En revanche, une fréquence de demande trop rapide sera considérée comme un robot. Il est recommandé de travailler avec des délais aléatoires avectime.sleep(random.uniform(1.2, 4.5))Simule les intervalles de fonctionnement réels.
Cinq nids-de-poule à éviter
1. N'utilisez pas de proxy de centre de donnéesLes segments IP AWS/GCP sont depuis longtemps signalés par Zillow, les proxys résidentiels sont la solution !
2. Les cookies doivent être séparésStockage de cookies individuels pour chaque adresse IP du proxy
3. Désactivation du chargement des imagesLes images ne sont pas chargées lors de l'exploration des données, ce qui permet d'économiser du trafic et de réduire les risques !
4. La reconnaissance CAPTCHA doit être utilisée avec prudenceLes services de codage automatisé peuvent augmenter de manière significative la probabilité d'être bloqué.
5. Contrôle de la fréquence de mise à jour des donnéesNe saisissez pas la même annonce plus de trois fois par jour.
Foire aux questions QA
Q : Pourquoi suis-je toujours bloqué avec une adresse IP proxy ?
A : Vérifiez si vous utilisez un proxy partagé, il est recommandé de changer le proxy résidentiel exclusif d'ipipgo, chaque session est une IP propre.
Q : Que dois-je faire si certains champs sont manquants dans les données JSON ?
R : Essayez d'ajouter aux paramètres de la demande?include=allVous devrez peut-être vous connecter dans l'État, pensez à accrocher un proxy pour simuler l'IP locale des États-Unis !
Q : Quel est le meilleur package d'ipipgo pour Zillow ?
A : RecommandéAgent résidentiel - ProfessionnelPrise en charge de la rotation automatique de l'IP et de la géolocalisation, en particulier pour tenir compte du prix des logements dans la région, possibilité de spécifier l'IP d'exportation au niveau de l'État.
Comment choisir un service d'agent fiable
Expérience sanglante d'avoir fait appel à sept ou huit agences de services :
1. un pool d'adresses IP d'au moins 5 millions (ipipgo dispose d'un pool d'adresses IP résidentiel de plus de 12 millions)
2. avoirTaux de réussite garanti des demandesS'il est inférieur à 95%, vous pouvez le passer.
3. une API permettant de personnaliser les scénarios d'entreprise, par exemple en fixant le nombre maximum de fois qu'une même IP peut être utilisée
4. fournir une assistance technique 7 × 24 heures, la dernière fois à trois heures du matin pour répondre à l'impossibilité de connecter l'IP, ipipgo technology seconds retournera aux ordres de travail.
Enfin, je rappelle aux débutants : n'essayez pas d'acheter ces proxies $0.1/IP à bas prix, le système de contrôle des vents de Zillow est plus intelligent que vous ne le pensez. Vous pouvez utiliser ipipgo en phase de test.Essai gratuit500 demandes par jour suffisent pour effectuer l'ensemble de la procédure.

