
Le crawler est un contre-crawling ? Apprenez à utiliser un proxy IP dur.
Les frères de crawl comprennent que le plus ennuyeux est le mécanisme anti-escalade du site. Le sceau IP est plus rapide que le livre, il suffit de courir pendant deux minutes sur la pause. Aujourd'hui, nous allons voir comment utiliser la bibliothèque Requests de Python avec la fonctionipipgopour maintenir le crawler en vie un peu plus longtemps.
L'IP proxy est un agent salvateur pour les robots d'indexation (crawlers)
Un crawler ordinaire revient à courir nu, le site peut reconnaître d'un coup d'œil votre IP réelle. L'IP proxy équivaut à porter un gilet, chaque demande d'un nouveau gilet, de sorte que le site pense qu'il s'agit d'une personne différente lors de la visite. Par exemple, si vous voulez attraper le prix d'une entreprise de commerce électronique, vous serez bloqué 20 fois de suite. Si vous changez l'IP pour chaque demande, le taux de réussite est directement complet.
Voici une commodité.ipipgoLe service proxy, le pool d'IP de sa famille est ridiculement grand, 30 millions d'IP résidentielles dynamiques. Mesuré, engagé dans la collecte de données sur le commerce électronique, il fonctionne en continu pendant 8 heures sans tomber.
| Type d'agent | Scénarios applicables |
|---|---|
| IP dynamique de courte durée | Acquisition de données à haute fréquence |
| IP statique de longue durée | Gestion des comptes |
| pool IP exclusif | Crawler d'entreprise |
Demande la configuration de la bibliothèque
Chargez d'abord la bibliothèque :pip install requestsLa question est de savoir comment insérer des adresses IP de proxy dans les requêtes. Voici le problème : comment insérer des adresses IP de proxy dans des requêtes ? Regardez le code :
demandes d'importation
proxies = {
'http' : 'http://用户名:密码@gateway.ipipgo.com:9020',
'https' : 'http://用户名:密码@gateway.ipipgo.com:9020'
}
try.
response = requests.get('destination URL', proxies=proxies, timeout=10)
print(response.text)
except Exception as e.
print(f'Done, error message : {str(e)}')
Délimiter l'objectif :N'oubliez pas de modifier votre nom d'utilisateur et votre mot de passe pour qu'ils correspondent à ceux que vous avez utilisés dans le formulaire de demande d'informations.ipipgoLes informations d'authentification sont générées en arrière-plan. Ne fixez pas le délai d'attente à plus de 15 secondes, sinon il est facile d'être marqué par le système anti-escalade.
Les trois axes de l'anti-crawling
1. Stratégie de rotation de la propriété intellectuelle :Ne soyez pas stupide et n'utilisez pas la même IP pour mourir, il est recommandé de changer d'IP toutes les 5 à 10 requêtes.ipipgopour obtenir l'IP de manière dynamique, ajoutez une boucle dans le code et c'est fait !
2. Demande de camouflage de l'en-tête :Le User-Agent doit être changé fréquemment, il est recommandé de préparer plus de 10 en-têtes de navigateurs différents.
3. Demande de contrôle de la fréquence :Même si vous avez une IP proxy, ne perdez pas votre temps, il est plus sûr d'hiberner pendant 1 à 3 secondes au hasard.
Foire aux questions QA
Q : Que dois-je faire si mon IP proxy ne fonctionne pas ?
R : Phénomène normal, il est recommandé d'utiliseripipgoLe service de remplacement automatique. Leur temps de survie IP est intelligemment régulé, ce qui vous permet d'économiser du temps et des efforts par rapport à un remplacement manuel.
Q : Que dois-je faire si je rencontre une protection Cloudflare ?
A : Proxy résidentiel supérieur + camouflage de l'empreinte digitale du navigateur. UtilisationipipgoLe mode plug-in de Chrome qui contourne la plupart des boucliers de 5 secondes
Q : L'acquisition est-elle aussi lente qu'un escargot ?
R : Vérifiez l'emplacement du serveur proxy et sélectionnez le nœud dans le pays où se trouve le site web cible.ipipgo支持按国家城市筛选IP,能降60%
Pourquoi ipipgo ?
Après avoir comparé de manière empirique une douzaine de fournisseurs de services d'agence, nous pouvons dire que trois d'entre eux présentent des avantages indéniables :
1. rapidité de réponseMoyenne 200 msC'est deux fois plus rapide que les autres.
2. soutienDemandes simultanées de plus de 5000Pas de stress pour les projets d'entreprise
3) ExclusifDétection de l'état de santé de l'IPRejet automatique des nœuds défaillants
Récemment, ils ont organisé un événement au cours duquel les nouveaux utilisateurs ont reçu 1G de trafic gratuitement. Remplissez le code promo lorsque vous vous inscrivez.PYTHON666Vous pouvez également obtenir 500M supplémentaires, c'est donc une perte de temps que de faire du ramassage de laine.

