
Vous apprendre à utiliser pip pour installer BeautifulSoup, rencontrer le réseau jam que faire ?
Neuf personnes sur dix qui utilisent Python pour capturer des données doivent installer BeautifulSoup, mais le plus grand casse-tête pour les débutants est de se heurter à l'erreurTroll Internet (agent provocateur sur les forums, etc.)Si vous voulez installer un proxy IP, vous devez le faire à la moitié de la journée. Cette fois-ci, nous devons inviter notre sauveur - le proxy IP !
Installer directement avec le paramètre proxy
pip install beautifulsoup4 --proxy=http://用户名:密码@ipipgo-proxy.com:1234
Ou le définir de manière permanente dans le fichier de configuration (recommandé)
Créez un nouveau fichier ~/.pip/pip.conf et écrivez :
[global]
proxy = http://用户名:密码@ipipgo-proxy.com:1234
Que peut vraiment faire une IP proxy ? Pourquoi utiliser ipipgo ?
Comme le coursier des achats en ligne coincé au milieu de la route, l'IP proxy est votre coursier exclusif. Avec le service proxy d'ipipgo, les trois principaux avantages sont clairs :
| point sensible | prescription |
|---|---|
| télécharger à la vitesse de l'éclair | 全国骨干节点代理ip |
| fréquence élevée de déconnexion | Commutation automatique intelligente IP |
| Problèmes d'accréditation | Acquisition d'une procuration en un clic par l'API |
En particulier lors de déploiements automatisés, c'est un voleur de l'écrire de cette façon dans le Dockerfile :
ENV PIP_PROXY=http://ipipgo-proxy.com:1234
RUN pip install beautifulsoup4 requests
Lignes directrices pour le déminage - pièges communs
Q:Pourquoi le délai d'attente est-il toujours signalé après la mise en place du proxy ?
R : 80 % sont des défaillances d'IP, allez sur ipipgo background pour rafraîchir le pool d'IP. Leur fonction de détection de survie est assez intelligente et élimine à l'avance les IP épuisées.
Q : Qu'en est-il des restrictions liées à l'intranet de l'entreprise ?
A : Essayez ipipgo'sModèle de proxy tunnelPour cela, changez l'adresse du proxy en http://tunnel.ipipgo.com afin de prendre automatiquement le canal crypté.
Q : L'utilisation simultanée d'une source miroir et d'un proxy constitue-t-elle un conflit ?
R : Pas de conflit ! Il est recommandé de procéder de cette manière (indispensable pour les utilisateurs nationaux) :
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple beautifulsoup4 --proxy=http://ipipgo-proxy.com:1234
L'IP par procuration peut encore être jouée de cette manière ?
Le chargement des bibliothèques n'est qu'un petit cas, les vraies astuces se trouvent dans le monde réel du crawler. Par exemple, lorsque vous utilisez la bibliothèque de requêtes, connectez la session au pool de proxy d'ipipgo :
importation de requêtes
from itertools import cycle
proxies = cycle(ipipgo.get_proxy_pool()) auto-rotation des IPs
session = requests.Session()
session.proxies = {'http' : next(proxies)}
Ensuite, il suffit d'analyser avec bs4 comme d'habitude
Enfin, n'utilisez pas ces proxys gratuits ! J'ai déjà vu des gens se faire injecter du code malveillant, alors que les projets sur lesquels ils travaillaient si dur étaient tous géniaux. ipipgoCanal crypté de classe entrepriseLa question de la sécurité des données est prise à la gorge.

