
Les crawlers Python s'amusent avec les données, il ne faut pas marcher sur ces nids de poule !
Récemment, beaucoup d'amis qui font de l'exploration de données ont été plantés, soit par le site web pour bloquer l'IP, soit par une lettre d'avocat. Il y a un frère qui compare les prix du commerce électronique et qui, avec sa propre bande passante, a grimpé pendant trois jours, les résultats de l'ensemble du réseau communautaire ont été occultés, les voisins cherchant à régler leurs comptes avec lui. Cela nous montre que les crawlers ne peuvent pas se contenter d'écrire du code, il faut connaître un peu les "règles du jianghu".
Pourquoi votre crawler est-il toujours bloqué ?
Beaucoup de débutants pensent qu'un UA (user agent) aléatoire sera capable de s'en sortir, en fait, le contrôle du vent du site est maintenant très fin. Tout comme la porte de sécurité du supermarché, vous changez de gilet, les gens pourront toujours vous reconnaître. En voici uneTrio de la mortIP fixe, accès à haute fréquence, demandes régulières, dans les trois cas, le sceau est une question de minutes.
| l'acte de suicide | probabilité d'interdiction |
|---|---|
| IP unique Hard Kong | 99% |
| Pas d'intervalle de visite | 80% |
| Exploration de données sensibles | Lettre de l'avocat direct |
La bonne façon d'ouvrir un proxy IP
Ici nous recommandons l'utilisation d'ipipgo home agent résidentiel dynamique, leur pool d'IP est particulièrement large, chaque requête change automatiquement d'IP, tout comme le jeu de la poule mouillée airdrop supplies, chaque atterrissage est une nouvelle identité. Le code de configuration spécifique est long comme ceci (n'oubliez pas de changer le API_KEY par le vôtre) :
importation de requêtes
from itertools import cycle
proxy_pool = ipipgo.get_proxy_pool() récupère automatiquement le dernier pool IP
proxy_cycler = cycle(proxy_pool)
for page in range(1, 100) : proxy = next(proxy_cycler) : proxy_cycler.get_proxy_pool()
proxy = next(proxy_cycler)
try : resp = requests.get(url)
resp = requests.get(url, proxies={"http" : proxy, "https" : proxy})
Traitement des données...
sauf.
ipipgo.report_bad_ip(proxy) signale une adresse IP invalide
Si vous ne prêtez pas attention à ces détails, il est inutile d'être agent.
1. Ne soyez pas une poule mouillée.Certains amis utilisent une IP à plusieurs reprises pour économiser de l'argent. Il est recommandé de changer d'IP toutes les 5 à 10 requêtes. Le modèle de facturation du trafic d'ipipgo est particulièrement adapté à ce scénario.
2. Les en-têtes des requêtes doivent être réalistesLes en-têtes : n'utilisez pas les en-têtes par défaut de la bibliothèque des requêtes, vous pouvez copier l'ensemble des en-têtes d'un vrai navigateur, ceux qui contiennent les cookies et les référents.
3. Il y a un côté positif dans chaque aspect de ce que l'on fait.Dans robots.txt, il est explicitement interdit de toucher au répertoire, l'intervalle de crawl est recommandé de fixer plus de 3 secondes !
Le temps de l'AQ : ce que vous pourriez vouloir demander
Q : Est-il absolument sûr d'utiliser un proxy IP ?
R : Tout comme le fait de porter des gants pour commettre un crime, cela peut réduire le risque mais ne constitue pas un laissez-passer. La clé dépend de l'utilisation des données, si elles concernent la vie privée des utilisateurs ou des secrets commerciaux, même les dieux ne peuvent pas les sauver.
Q : Que se passe-t-il si l'adresse IP d'ipipgo est bloquée ?
R : Ils disposent d'un mécanisme de fusion intelligent qui protège automatiquement les nœuds défaillants. S'il s'agit d'une demande de forte concurrence, il est recommandé d'ouvrir un paquet IP dédié, avec une amélioration de la stabilité de plus de 70%.
Q : Comment puis-je savoir si un site web a bloqué mon crawler ?
R : L'apparition d'un code d'erreur 403, d'une demande de code de vérification et d'un retour de données erronées sont autant de signaux de danger. Vous devez alors immédiatement faire une pause, vérifier les paramètres de l'en-tête de requête ou contacter le service clientèle d'ipipgo pour changer le segment IP !
Dites quelque chose qui vient du cœur.
J'ai vu trop de programmeurs à cause du crawler en difficulté avec le procès, en fait, la plupart du site n'est pas opposé à la collecte raisonnable de données, l'essentiel est de se conformer aux règles du jeu. Tout comme la pêche, avec la bonne canne à pêche (proxy IP), dans les eaux autorisées (données publiques), en pêchant des espèces de poissons conformes (informations non sensibles), afin que l'eau puisse couler. ipipgo a récemment sorti un paquet de protection pour les débutants, avec une détection automatique de la conformité, il est recommandé aux amis qui commencent juste à jouer d'essayer, au moins de marcher sur la fosse du 80% moins.

