
Apprendre à utiliser pip pour installer un outil de résolution d'IP par proxy.
Récemment, beaucoup d'amis de la collecte de données ont demandé à Lao Zhang, pourquoi ils ont écrit le crawler est toujours bloqué IP, cette chose n'est vraiment pas compliquée, la clé du programme de porter un "vêtement de protection". Aujourd'hui, nous allons nag comment utiliser pip pour installer ceux qui peuvent automatiquement résoudre la bibliothèque IP proxy, par la voie, un fournisseur de service proxy fiable.
Que dois-je préparer avant de charger l'entrepôt ?
Vous devez d'abord vous assurer que vous l'avez sur votre ordinateur.Python 3.6 ou supérieurAppuyez et maintenez win+R et tapez cmd pour entrer, et tapez dans la fenêtre noire.python --versionVous pourrez voir la version. Si la version est trop ancienne, nous vous recommandons d'aller directement sur le site officiel pour obtenir une nouvelle version.
Par exemple, pour installer la bibliothèque requests
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
Notez que le Tsinghua Mirror Source est utilisé ici, et que la vitesse de téléchargement peut être beaucoup plus rapide. Si vous obtenez un message indiquant que la version de pip est ancienne, exécutezpython -m pip install --upgrade pipMise à niveau vers le bas.
Proxy dans le monde réel Résolution IP triple axe
Voici trois bibliothèques que j'ai testées et qui fonctionnent bien, concentrons-nous sur la première :
| nom de la bibliothèque | spécificités | Scénarios applicables |
|---|---|---|
| demandes-html | Auto-expurgitation | Capture simple de pages web |
| scrapy | Cadre professionnel | Projets à grande échelle |
| pyquery | Syntaxe de jQuery | Analyse des pages complexes |
Extrait de code actuel (n'oubliez pas de le remplacer par votre propre proxy)
from requests_html import HTMLSession
proxies = {
'http' : 'http://user:password@ipipgo-proxy.com:9020',
'https' : 'http://user:password@ipipgo-proxy.com:9020'
}
session = HTMLSession()
response = session.get('https://目标网站', proxies=proxies)
print(response.html.find('title'))
Concentrez-vous sur ce point.Paramètres des mandatairesLe format de proxy tunnel fourni par ipipgo est utilisé ici. Leurs proxies n'ont pas besoin de changer d'IP manuellement, ce qui est particulièrement intéressant pour les débutants.
Lignes directrices pour le déminage - pièges communs
Q : Que dois-je faire si je continue à obtenir des erreurs lors du chargement de la bibliothèque ?
R : Vérifiez d'abord que le réseau n'a pas de proxy ouvert, car il arrive que le proxy global s'ouvre au lieu de se connecter à la source de données. Il est recommandé de désactiver temporairement le logiciel proxy et de réessayer.
Q : Le code est exécuté, mais les données ne sont pas transmises.
R : 80% des IP proxy sont reconnues par le site web cible. Cette fois, il faut changerDes agents de qualitéIl s'agit par exemple des forfaits IP exclusifs d'ipipgo, où chaque IP est une véritable IP résidentielle qui a été utilisée par une personne réelle.
Q : Comment puis-je savoir si une procuration est en vigueur ?
R : Ajoutez une URL de test au code :session.get('http://httpbin.org/ip')pour voir si l'IP renvoyée est une IP proxy.
Pourquoi recommandez-vous ipipgo ?
Ce n'est pas pour rien que vous finissez par bloquer ipipgo après avoir utilisé le service proxy pendant plus de trois ans :
- Salle de serveur domestique auto-construite, le temps de latence peut être contrôlé dans les 50 ms.
- Soutien au paiement à l'utilisation, les nouveaux arrivants bénéficient d'un essai gratuit du trafic 1G
- Offre exclusiveMécanisme de non-réessaiCommutation automatique de l'IP
Mention spéciale pour leurFonction de routage intelligentqui peut automatiquement correspondre au nœud proxy où se trouve le site web cible. Par exemple, si vous souhaitez collecter des sites web japonais, le système attribuera automatiquement l'IP d'exportation de la salle des serveurs de Tokyo.
Conseils pour la mise à niveau du jeu
Si vous réalisez un projet de collecte à long terme, il est recommandé d'écrire la configuration du proxy dans un fichier de configuration séparé :
config.py
PROXY_CONFIG = {
'proxy_host' : 'ipipgo-proxy.com',
'proxy_port' : 9020,
'password' : 'votre mot de passe'
}
Faites ensuite référence à cette configuration dans l'application principale, afin qu'il soit plus facile de changer le fournisseur de services proxy ultérieurement. Par ailleurs, l'arrière-plan d'ipipgo peut visualiser les appels API en temps réel, ce qui est particulièrement utile pour le dépannage.
Enfin, je voudrais rappeler aux débutants de ne pas utiliser d'agents libres pour pas cher. Avant un client avide de pas cher, les résultats de la collecte de toutes les données fausses, et finalement devoir retravailler pour refaire. Les choses professionnelles ou à ipipgo tels prestataires de services professionnels fiables, gagner du temps pour prendre deux autres projets qui sont de retour.

