
Maux de tête liés à l'utilisation de Zillow ? Essayez ces jokers
Si vous faites de l'analyse de données immobilières, vous savez que les données de Zillow sont très chères, mais si vous montez directement dessus, vous serez bloqué en moins d'une demi-heure. Cependant, si vous montez directement dessus, vous serez bloqué en moins d'une demi-heure. L'année dernière, un ami n'a pas cru au mal, et a utilisé sa propre bande passante pour attraper trois jours d'affilée, et en conséquence, tout le réseau communautaire a été mis sur la liste noire de Zillow, ce qui a conduit à des plaintes collectives de la part des voisins. Cette chose nous dit queSans IP proxy, c'est la mort dans l'âme que de manipuler des données..
Sélection de l'IP proxy avec précaution
Il existe deux types de proxy IP sur le marché, tout comme l'achat de nourriture est divisé en poisson vivant et poisson congelé :
| typologie | Durée de conservation | Scénarios applicables |
|---|---|---|
| IP résidentielle dynamique | 5-30 minutes | Acquisition de données à haute fréquence |
| IP statique de la salle des serveurs | fixe | Surveillance à long terme |
Pour attraper des sites comme Zillow qui sont très actifs en matière d'anti-crawl, il est recommandé d'utiliser l'optionIP résidentielle dynamique pour ipipgoLe site web ne peut tout simplement pas comprendre la routine, car il conserve plus de 20 millions d'IP domestiques réelles dans son pool d'IP domestiques et change de gilet chaque fois qu'il en fait la demande.
Configuration pratique
En utilisant le vieux compagnon de Python, la bibliothèque requests, comme exemple, c'est un voleur simple à configurer avec le service proxy d'ipipgo :
demandes d'importation
proxies = {
'http' : 'http://用户名:密码@gateway.ipipgo.com:9020',
'https' : 'http://用户名:密码@gateway.ipipgo.com:9020'
}
response = requests.get('https://www.zillow.com/homes', proxies=proxies)
N'oubliez pas de mettreL'intervalle entre les demandes est supérieur à 3 secondes.Si vous êtes trop rapide, même si vous changez d'adresse IP, vous serez facilement détecté. Il existe un moyen astucieux d'ajouter un délai aléatoire dans le code, imitant ainsi le fonctionnement d'une personne réelle :
Importation du temps
import random
time.sleep(random.uniform(2.5, 6.8))
Set trois pièces anti-blocking must-kill
1. La rotation des PI devrait être suffisamment savoureuseL'API d'ipipgo permet de changer automatiquement d'adresse IP à chaque demande.
2. L'en-tête de la demande doit être suffisamment réel.: N'utilisez pas le Python-UA par défaut, volez un User-Agent correct à votre navigateur !
3. Les voies d'accès doivent être suffisamment hétérogènesLes pages d'accueil : Ne pas prendre une page au dépourvu, imiter plus souvent le parcours de clics d'une personne réelle
Foire aux questions QA
Q : Combien de PI dois-je préparer par jour ?
R : En fonction de la fréquence d'exploration, 300 requêtes par heure, si vous utilisez le logiciel ipipgoPaquet piscine dynamiqueNe vous préoccupez pas de l'attribution automatique d'une adresse IP.
Q : Que dois-je faire si je rencontre un CAPTCHA ?
A : ipipgo'sAgents à forte valeur ajoutéePeut réduire le taux de déclenchement des CAPTCHA, vraiment rencontré recommandé le traitement manuel, ne pas utiliser la plate-forme de codage (facile à exposer).
Q : Que dois-je faire si je ne parviens pas à saisir toutes les données ?
A : EssayezCrawler distribué + plusieurs adresses IP géographiquesLes adresses IP de différents nœuds, tels que Los Angeles et New York avec ipipgo, sont en mesure d'obtenir un contenu géographiquement limité.
Dites la vérité.
J'ai vu trop de gens utiliser des proxys gratuits pour pas cher, et le résultat est qu'ils ne reçoivent pas de données, mais causent aussi beaucoup d'ennuis. ipipipgoPackage agent résidentiel,虽然比IP贵点,但胜在稳定。上次有个做房产中介的朋友,用他们家服务连续抓了三个月,愣是没被Zillow发现。记住,Les adresses IP proxy sont comme des préservatifs, ceux qui sont de mauvaise qualité sont mieux utilisés que ceux qui ne le sont pas..

