
Vous apprendrez par la pratique à utiliser une API gratuite pour attraper des pages web, ne pas laisser l'IP se bloquer dans le mauvais type d'application.
Les vieux briscards de l'exploration de données devraient comprendre que le plus grand malheur est que le site cible vous donne soudain unBlocage IPLa première chose à faire est d'utiliser un proxy IP. Si vous utilisez une IP proxy à ce moment-là, c'est comme si vous jouiez à un jeu d'armure de résurrection ouverte, une minute de résurrection complète sur place. Aujourd'hui, nous allons vous expliquer comment utiliser l'API gratuite avec l'IP proxy pour faire du web crawling.
Pourquoi dois-je utiliser une adresse IP proxy ?
Par exemple, vous prenez votre propre IP à large bande à domicile pour faire des folies pour attraper le prix d'un site de commerce électronique, pas hors d'une demi-heure quasi-bloqué. À ce moment-là, si vous utilisez un pool d'IP proxy pour alterner l'accès, le côté du site web à voir à chaque fois estnouveau visageC'est comme jouer à cache-cache. Chaque fois que tu changes de vêtements et que tu sors, celui qui t'attrape ne pourra jamais te rattraper.
Comment choisir une API gratuite et fiable ?
Les API gratuites sont légion sur le marché, mais il y a beaucoup de nids-de-poule. Concentrez-vous sur ces trois points :
1. (méd.) taux de récupérationLes services d'information sur les droits d'auteur : N'utilisez pas de pools d'adresses IP mortes qui ne sont pas mises à jour la moitié du temps !
2. anonymatProxies hautement anonymes pour cacher les adresses IP réelles
3. limite de fréquenceLes demandes de crédit : Au moins quelques centaines de demandes de crédit par jour.
Je vais devoir vous présenter ceci.ipipgode forfaits gratuits pour les nouveaux arrivants qui s'inscrivent500 par jourLe quota de proxy HTTP. Leur pool d'adresses IP est automatiquement actualisé toutes les heures, le taux de survie mesuré peut être supérieur à 80 %, l'essentiel étant de ne pas lier la carte de crédit, etc.
Code de pratique Walking Wave
Démonstration de l'exemple le plus simple avec la bibliothèque de requêtes de Python :
demandes d'importation
proxies = {
'http' : 'http://username:password@gateway.ipipgo.com:9020',
'https' : 'http://username:password@gateway.ipipgo.com:9020'
}
response = requests.get('destination URL', proxies=proxies, timeout=10)
print(response.text)
Veillez à remplacer le nom d'utilisateur et le mot de passe par les vôtres dans le champipipgoLe backend reçoit les informations d'authentification. S'il est trop difficile de changer manuellement de proxy à chaque fois, vous pouvez écrire un logiciel intermédiaire qui change automatiquement, mais nous ne nous étendrons pas sur ce sujet ici.
Lignes directrices sur le déminage des problèmes courants
Q : L'agent libre fera-t-il fuir des données ?
R : Choisissez un fournisseur comme ipipgo qui dispose de canaux cryptés HTTPS, beaucoup plus sûrs que les proxys de type "wildcard". Si vous êtes vraiment inquiet pour vos données sensibles, il est recommandé d'opter pour leur version payante d'IP exclusive.
Q : Que dois-je faire si je rencontre toujours le CAPTCHA ?
R : Cela signifie que le site a soupçonné que vous êtes un robot. Deux solutions : 1. diminuer la fréquence de crawl 2. changer de package proxy anonyme plus élevé. Le package business d'ipipgo dispose d'une fonction de crack CAPTCHA automatique, adapté aux joueurs professionnels.
Q : Que se passe-t-il lorsque le crédit gratuit est épuisé ?
R : Soit vous vous inscrivez pour plusieurs trompettes (attention à ne pas violer les CGU), soit vous passez à un forfait payant. Les forfaits mensuels d'ipipgo ne coûtent que 30 dollars, ce qui est moins cher que d'acheter du thé au lait.
Conseils pour éviter la fosse
1) N'utilisez pas les pools de proxy publics, ces adresses IP sont depuis longtemps inscrites sur la liste noire des principaux sites web.
2. définir de manière aléatoire l'agent utilisateur pour chaque demande afin qu'il agisse comme un navigateur.
3. les données importantes doivent être mises en cache local, afin d'éviter que l'exploration répétée ne gaspille le quota.
4. ne pas lutter contre la défaillance continue, changer immédiatement l'adresse IP et continuer à travailler.
Enfin, un jeu API libre et sincère peut être dit, si l'on veut vraiment s'engager dans des projets sérieux ou si l'on doit s'en remettre aux services de l'agence. CommeipipgoCe type d'offre - essai gratuit + tarification progressive - est tout à fait sympathique pour les nouveaux et les anciens conducteurs. Si vous ne comprenez pas quelque chose, il vous suffit de consulter leur site officiel pour le service clientèle, et la réponse est plus rapide qu'un livreur qui livre de la nourriture.

