
Zillow Crawler bloqué par Anti-crawl ? Essayez ce joker
Récemment, de nombreux amis effectuant des analyses immobilières se sont plaints que le CAPTCHA de Zillow devenait de plus en plus pervers et que l'IP était bloquée juste après avoir capturé deux pages de données. Le mois dernier, j'ai aidé l'entreprise de mon ami à collecter des données et j'ai constaté qu'il était impossible de jouer avec les moyens conventionnels, et j'ai finalement eu recours à l'IP proxy pour casser le jeu. Aujourd'hui, je vais partager avec vous une expérience pratique et vous apprendre à utiliser le service proxy d'ipipgo pour glaner des données de manière stable.
Quel est le degré de folie de l'ensemble anti-escalade de Zillow ?
Le mécanisme anti-crawl de la plateforme n'est vraiment pas une blague, et j'ai compilé une liste des trois astuces les plus courantes qu'ils utilisent :
1. Surveillance de la fréquence IPLe même accès IP plus de 5 fois de suite, vous donne directement une ligne pincée !
2. reconnaissance des empreintes digitalesEmpreinte du navigateur, caractéristiques de l'en-tête de la requête, suivi de la souris, et plus encore !
3. Les pièges du chargement dynamiqueLes données de la page sont chargées sept ou huit fois avec des liens de type "pot de miel" entre les deux.
La chose la plus pitoyable à leur sujet est leurBibliothèque de réputation IPLes segments IP des salles de serveurs courantes sur le marché sont depuis longtemps consignés dans un petit livre. Une fois, j'ai utilisé un certain proxy et il a déclenché le contrôle du vent juste après le démarrage, puis je suis passé au proxy résidentiel d'ipipgo pour résoudre le problème.
La bonne façon d'ouvrir un proxy IP
Pour choisir un service d'agence, vous devez tenir compte de trois indicateurs importants :
- Temps de survie : les agents à courte durée d'action (3-5 minutes) sont plus sûrs que les agents à longue durée d'action.
- Type de réseau : doit être sélectionnéIP résidentiel purLes adresses IP des centres de données sont en fait données pour rien.
- Emplacement géographique : il est recommandé de choisir l'IP locale du site cible, par exemple, pour escalader les listes américaines, utiliser l'IP résidentielle de l'ouest des États-Unis.
C'est là qu'il faut planter les ipipgo.Pool dynamique d'agents résidentielsJe n'ai jamais déclenché de CAPTCHA avec eux, et leurs IP sont toutes des IP domestiques à haut débit, qui changent automatiquement à chaque demande. La clé est que le prix est plus élevé que les homologues, les nouveaux utilisateurs peuvent également obtenir un essai de trafic 3G.
importation de requêtes
from itertools import cycle
proxies = cycle(ipipgo.get_proxy_list()) auto-rotation des proxies
for page in range(1, 100) : current_proxy = next(proxies)
current_proxy = next(proxies)
essayer.
response = requests.get(
'https://zillow.com/api/v1/search', current_proxy = next(proxies)
proxies={'http' : current_proxy, 'https' : current_proxy}, headers={'User-Agent' : 'Mozilla/5.0')
headers={'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit/537.36...'}
)
Traitement de la logique des données...
except Exception as e.
print(f "Retournement avec {current_proxy}, coupe automatiquement le suivant")
Guide pratique pour éviter la fosse
Suivez les cinq étapes ci-dessous pour vous assurer de bien maîtriser vos données :
1. Demande de contrôle rythmiqueLes pages du site peuvent être consultées en ligne : arrêtez-vous 10 à 15 secondes toutes les 3 pages pour imiter une personne réelle en train de naviguer.
2. Déguisement de l'en-tête: n'utilisez pas l'UA par défaut des requêtes, allez dans le vrai navigateur et saisissez l'en-tête de la requête
3. Mécanisme de non-réessaiMise en veille automatique pendant 1 minute en cas de code d'état 429
4. vérification des donnéesLes résultats de l'enquête : vérifier si le résultat retourné contient des éléments de type "pot de miel" (par exemple, des prix anormalement bas).
5. Changement programmé de l'IP de sortieIl est recommandé de changer complètement de segment IP toutes les 20 minutes.
Une fois que j'ai été paresseux, je n'ai pas défini l'intervalle de requête, les résultats d'ipipgo en arrière-plan montrent 10 minutes avec plus de 200 IP. Plus tard, j'ai ajouté un délai aléatoire, la consommation de trafic a directement baissé de 60%, les données sont plus stables.
Foire aux questions QA
Q : Pourquoi avez-vous utilisé un proxy et avez-vous quand même été banni ?
R : 80% d'entre eux utilisent un proxy de centre de données, ou l'en-tête de la requête n'est pas déguisé. Passez au proxy résidentiel d'ipipgo et n'oubliez pas d'apporter une empreinte digitale de navigateur différente pour chaque demande.
Q : Dois-je maintenir mon propre pool d'adresses IP ?
R : Ce n'est pas nécessaire ! L'API d'ipipgo élimine automatiquement les adresses IP défaillantes et alloue intelligemment les ressources en fonction du type d'entreprise. J'ai mis en place une politique de nettoyage de qualité financière et je l'utilise depuis six mois sans aucun renouvellement !
Q : Quelle est la vitesse du crawl ?
R : Un seul thread par heure peut capturer 800-1000 données, avec un crawler distribué + ipipgo 10 canaux simultanés, l'extraction quotidienne de millions de données ne pose aucun problème !
Q : Que dois-je faire si je rencontre un CAPTCHA ?
A : ipipgo'sSolutions CAPTCHA intelligentesPeut gérer automatiquement la vérification de 90%, le reste de la chaîne de codage artificiel difficile à obtenir, le taux de réussite de 99%.
Dites la vérité.
S'engager dans cette ligne de collecte de données, la lutte est la qualité des ressources. J'ai comparé plus d'une douzaine de services proxy, et j'ai finalement choisi ipipgo sur la base de deux points : d'une part, leur pool d'IP est mis à jour tous les jours 20%, et d'autre part, la réponse du support technique est rapide. Une fois que j'ai rencontré des problèmes techniques à trois heures du matin, l'ordre de travail est revenu en quelques secondes, ce qui est vraiment rare dans l'industrie.
Enfin, j'aimerais rappeler aux débutants de ne pas acheter des proxys de pacotille à bas prix. La dernière fois, un ami a utilisé un proxy gratuit pour escalader Zillow, les résultats du compte ont été bloqués pour ne pas dire, mais aussi pour manger une lettre d'avocat. Des choses professionnelles aux outils professionnels, ipipgo fait maintenant des activités, le code d'enregistrement [ZILLOW666] peut être réduit de 20%, allez sur le site officiel pour y jeter un coup d'œil.

