
Vous apprendre à utiliser le proxy IP pour résoudre le problème de la saisie des données
Les amis qui s'engagent dans la capture de données comprennent que le plus grand casse-tête est le site cible dont l'IP est bloquée. Hier, un bon script fonctionnait, aujourd'hui, une interruption soudaine. Cette fois-ci, nous devons faire appel à notre sauveur, leIP proxyJe ne suis pas sûr que vous puissiez le faire. Ne vous précipitez pas pour frapper le code, écoutez d'abord ce que j'ai à vous dire.
Pourquoi dois-je utiliser une adresse IP proxy ?
Prenons un exemple concret : Xiaoming souhaite obtenir les données de prix d'une plateforme de commerce électronique et, dans un premier temps, il est assez facile d'utiliser l'adresse IP de son propre ordinateur pour les obtenir. En conséquence, le troisième jour, j'ai constaté que le retour était une erreur 403, l'adresse IP d'origine ayant été retirée par le site noir. À l'heure actuelle, si vous utilisez l'IPipipgoLe pool de proxy dynamique, chaque demande d'une nouvelle IP, tout comme le jeu a ouvert une armure de résurrection illimitée, ne peut tout simplement pas être bloqué.
demandes d'importation
proxies = {
'http' : 'http://username:password@gateway.ipipgo.com:9020',
'https' : 'http://username:password@gateway.ipipgo.com:9020'
}
response = requests.get('destination URL', proxies=proxies, timeout=10)
Quels sont les principaux indicateurs à prendre en compte lors du choix d'une IP proxy ?
Il existe de nombreux prestataires de services d'agence sur le marché, mais ceux qui sont fiables doivent remplir ces conditions :
- Le temps de survie doit être court :Il est préférable de changer d'IP automatiquement en 3 à 5 minutes. N'utilisez pas ceux qui prétendent être efficaces à long terme.
- Situation géographique :Comme ipipgo peut fournir des nœuds dans plus de 200 villes, il est très pratique d'obtenir des données géographiques.
- Le taux de réponse devrait être stable :Ne dépassez pas 800 ms ou les données seront interrompues avant d'être capturées.
Guide pratique pour éviter la fosse
Trois erreurs courantes commises par les débutants :
1. utiliser une seule IP pendant une longue période (il est recommandé d'utiliser chaque IP au maximum 20 fois).
2. oublier de définir le paramètre "timeout" (abandonner après 10 secondes)
3. défaut d'espacement des demandes (au moins 1,5 seconde entre les demandes)
from scrapy.downloadermiddlewares.retry import RetryMiddleware
class CustomProxyMiddleware(object) : def process_request(self, request, spider) : class CustomProxyMiddleware(object).
def process_request(self, request, spider).
request.meta['proxy'] = "http://动态认证账号:密码@gateway.ipipgo.com:9020"
request.meta['download_timeout'] = 15
Questions fréquemment posées Trousse de premiers secours
Q:Que dois-je faire si l'IP proxy ne se connecte soudainement pas ?
R : Vérifiez d'abord que les informations d'authentification ne sont pas correctes, puis contactez le service clientèle d'ipipgo pour vérifier l'état du nœud, ils répondent plus vite qu'un garçon à emporter !
Q : Que dois-je faire si le crawl est lent ?
R : Essayez ces astuces :
1. commutation des différentes lignes de salle d'ipipgo
2. changer l'UA dans l'en-tête de la requête pour un navigateur grand public.
3. activer le transfert par compression gzip
Recommandation consciencieuse de prestataires de services d'agent
Après avoir fait appel à 7 ou 8 fournisseurs de services, j'ai fini par utiliser ipipgo à long terme pour trois raisons :
1) Technologie unique de port dynamique, effet anti-blocage exceptionnel !
2. des packages d'optimisation sont disponibles spécifiquement pour le crawling de données
3) Le service clientèle est en ligne 24 heures sur 24, la dernière fois à 3 heures du matin.
Récemment, ils ont organisé un essai gratuit pour les nouveaux utilisateurs, en s'inscrivant et en obtenant 1G de trafic gratuit. Il est recommandé de prendre la quantité gratuite pour tester, s'adapter et ensuite acheter un forfait mensuel. Quoi qu'il en soit, mon équipe a maintenant plus de 20 projets de crawler, tous exécutés sur leur agent, stable par lot.
Enfin, je voudrais dire que la capture des données est un processus long et lent. Ne soyez pas avide de rapidité si l'autre serveur tombe en panne, fixez un nombre raisonnable de simultanéité et de fréquence des requêtes. Après tout, l'utilisation de l'IP proxy est pour la stabilité à long terme du travail, pas pour s'engager dans des attaques DDOS, vous dites bien ?

