
Ne laissez pas le blocage des adresses IP interrompre votre collecte de données sur les biens immobiliers
Récemment, plusieurs de mes amis qui font de l'analyse immobilière se sont plaints que leurs adresses IP étaient toujours bloquées lorsqu'ils utilisaient des crawlers pour récupérer les données de Zillow. Je ne connais que trop bien ce problème : l'année dernière, alors que je réalisais des analyses de marché pour une agence, plus de 20 adresses IP ont été bloquées pendant trois jours d'affilée. Plus tard, j'ai découvert queLes adresses IP proxy gratuites sont comme des sacs en plastique au marché.La plupart des produits de ce type ont l'air de fonctionner, mais en réalité ils fuient partout, sont lents comme des escargots ou sont mis au rebut au bout de deux utilisations.
C'est le moment de proposer des outils professionnels. Par exemple, écrire un crawler basique en Python avec une fonctionipipgod'agents résidentiels, le taux de survie peut être augmenté de 70 à 80 %. Regardez cet exemple de code simple :
importation de requêtes
from itertools import cycle
proxies = cycle([
'http://user:pass@proxy1.ipipgo.com:8000',
'http://user:pass@proxy2.ipipgo.com:8000'
])
for page in range(1,10) : current_proxy = next(proxies)
current_proxy = next(proxies)
try : current_proxy = next(proxies)
res = requests.get(f'https://www.zillow.com/homes/page_{page}', proxies={'http' : current_proxy}))
proxies={'http' : current_proxy})
print(f'Successfully captured page {page}')
except.
print(f'Le proxy actuel {current_proxy} a échoué, changement automatique')
Quatre conseils pour améliorer le succès de la collecte de données
Voici un résumé réel de la table de configuration, suivez-le pour marcher sur moins de nids-de-poule 80% :
| élément de configuration | Paramètres recommandés | mise en garde |
|---|---|---|
| intervalle de demande | 5-8 secondes | Ne prenez pas moins de trois secondes ou vous serez facilement reconnu. |
| Type IP | Agent résidentiel | Durée de survie de l'IP courte dans la salle des serveurs |
| concurrence | ≤3 fils | Si vous l'activez trop, il est plus facile de déclencher la vérification. |
| échouer et réessayer | 3 rotations | Ne vous contentez pas de la même adresse IP. |
Pour rappel, utilisezipipgoN'oubliez pas d'activer le mode de commutation automatique lorsque vous êtes dans le pool de serveurs mandataires. Leurs IP résidentielles sont toutes des réseaux d'utilisateurs réels et sont plus difficiles à identifier que les proxys de chambre ordinaires. La dernière fois que j'ai utilisé cette méthode, j'ai capturé plus de 2 000 inscriptions consécutives sans déclencher de vérification.
Les coûts cachés des outils gratuits
Ces collecteurs open source en ligne fonctionnent, mais il y a deux blessures fatales : l'une est la mauvaise qualité du proxy gratuit intégré, la seconde est que la configuration n'est pas flexible. J'ai testé un grand nombre de milliers d'outils open source, la configuration par défaut de 10 minutes pour être bloqué IP.
Il est recommandé de modifier vous-même le module de configuration du proxy de l'outil, et de placer le module de configuration du proxy de l'outil sur le serveur.ipipgoet d'y intégrer l'accès à l'API. De cette façon, nous pouvons conserver la fonctionnalité originale de l'outil, mais aussi résoudre le problème de la qualité de l'IP. Il n'est pas difficile de le changer, il suffit de trouver la partie proxy dans le fichier de configuration et de la remplacer par votre propre adresse d'interface.
Guide de configuration que même un novice peut manipuler
Voici un joker : utiliser un plugin de navigateur avec un proxy. Par exemple, installez SwitchyOmega, mettez le pluginipipgoRemplir l'adresse proxy fournie et commuter manuellement est beaucoup plus facile que d'écrire du code. Convient aux amis qui n'ont besoin de collecter qu'une petite quantité de données occasionnellement.
Répartition des étapes :
- existentipipgoGénération de clés API en arrière-plan
- Télécharger la liste des proxy dans un fichier csv local
- Définir des règles de commutation automatique dans le plugin
- Test de la disponibilité de l'IP (Faits marquants !)
Questions fréquemment posées
Q : Est-il illégal de collecter les données de Zillow ?
R : Tant que vous ne l'utilisez pas à des fins de revente commerciale, vous pouvez l'utiliser à des fins de recherche personnelle. Veillez toutefois à respecter les règles du site robots.txt.
Q : Les proxys gratuits fonctionnent-ils ?
R : Les tests à court terme sont acceptables, l'utilisation à long terme est recommandée pour acheter des services professionnels. Les proxys gratuits sont comme les serviettes en papier dans les toilettes publiques, OK pour les urgences mais ne vous attendez pas à de la qualité.
Q : Quelle est la différence entre ipipgo et les autres ?
R : Leur pool d'adresses IP présente trois avantages majeurs : une forte proportion d'adresses IP résidentielles réelles, la prise en charge de la facturation à la demande et la fourniture d'une assistance technique 7 jours sur 7 et 24 heures sur 24. En particulier, le pool d'adresses IP résidentielles des États-Unis est particulièrement adapté à la capture de données immobilières.
Enfin, une histoire vraie : la semaine dernière, pour aider des amis à configurer le système de collecte, le proxy ordinaire a été bloqué pendant 2 heures et remplacé par le système de collecte de l'entreprise.ipipgod'un paquet personnalisé après trois jours de fonctionnement stable. C'est ainsi que les choses se passent dans ce secteur.Pour économiser une petite somme d'argent, il faut souvent consacrer beaucoup de temps à combler le trou.Il est préférable que le professionnel laisse les outils professionnels au professionnel.

