
Pratique des serveurs mandataires HTTP
Récemment, de nombreux amis qui font de la collecte de données m'ont contacté pour se plaindre, disant que l'anti-climbing du site web devient de plus en plus féroce. La semaine dernière, le vieux roi a juste écrit un bon script de crawler, cette semaine ne sera pas en mesure d'attraper les données. En fait, il est possible de résoudre ce problème en mettant en place un serveur proxy HTTP. Aujourd'hui, nous allons nous demander comment obtenir un serveur proxy, en l'occurrence un fournisseur de services proxy fiable.
Qu'est-ce qu'un serveur proxy ?
En termes simples, il s'agit d'un intermédiaire qui relaie les requêtes web pour vous. Par exemple, si vous voulez accéder à un certain site web, vous laissez d'abord le serveur proxy frapper à la porte, puis il déplace les données et vous les transmet. Cela présente deux avantages :La première consiste à cacher l'adresse IP réelle(math.) genreDeuxièmement, franchir les restrictions d'accèsIl ne s'agit pas d'une opération spéciale. Notez que la restriction d'accès se réfère ici à la limitation de la fréquence des requêtes de certains sites web à une seule IP, et non à une opération spéciale.
Agents autonomes
Voici comment utiliser la fonction Pythonhttp.serverModules pour donner un marron. Installez d'abord une bibliothèque tripartite :
pip install PySocks
Créez ensuite un nouveauproxy_server.pyDocumentation :
import socketserver
import http.server
PORT = 3128
class MyProxy(http.server.SimpleHTTPRequestHandler): : def do_GET(self).
SimpleHTTPRequestHandler. def do_GET(self).
self.send_response(200)
self.end_headers()
if __name__ == '__main__' : avec socketserver.
avec socketserver.ThreadingTCPServer(('', PORT), MyProxy) as httpd.
print("Proxy en cours d'exécution, port :", PORT)
httpd.serve_forever()
Une fois qu'il est lancé, remplissez les paramètres du navigateur127.0.0.1:3128Il fonctionnera. Cependant, cet agent jouet n'est destiné qu'à être testé, et vous devez vraiment utiliser une solution professionnelle pour l'environnement de production.
La bonne façon d'ouvrir un joueur professionnel
La maintenance d'un serveur proxy par vos propres moyens représente une charge de travail trop importante, c'est pourquoi nous vous conseillons de suivre les conseils suivantsipipgode services prêts à l'emploi. Leur maison s'articule autour de trois axes particulièrement utiles :
| Type d'emballage | Scénarios applicables | Avantage tarifaire |
|---|---|---|
| Dynamique résidentielle (standard) | Collecte quotidienne de données | À partir de 7,67 $/GB |
| Dynamic Residential (Entreprise) | Exigences en matière de visites fréquentes | À partir de 9,47 $/GB |
| Maisons statiques | IP fixe à long terme | À partir de 35 $/IP |
L'utilisation de leur API pour extraire les adresses IP des mandataires est extrêmement pratique, pour vous donner un exemple :
demandes d'importation
proxy = {
'http' : 'http://用户名:密码@gateway.ipipgo.com:端口',
'https' : 'http://用户名:密码@gateway.ipipgo.com:端口'
}
response = requests.get('Target site', proxies=proxy)
Guide pratique pour éviter la fosse
1. Ne paniquez pas si votre proxy échoue.Il est recommandé de choisir au hasard entre 3 et 5 adresses IP en guise de réserve pour chaque demande.
2. Les paramètres du délai d'attente sont importantsNe pas utiliser le délai d'attente par défaut, l'ajuster entre 3 et 10 secondes en fonction du scénario de l'entreprise.
3. N'oubliez pas de dissimuler l'en-tête de la demandeLes utilisateurs doivent être conscients de la nécessité de changer souvent d'User-Agent, et de ne pas utiliser ces champs de mauvaise qualité !
Foire aux questions QA
Q : Comment choisir entre une IP dynamique et une IP statique ?
A : le besoin de maintenir un état de connexion à long terme choisit une collection statique, ordinaire avec une collection dynamique plus rentable
Q : Que dois-je faire si je rencontre 403 interdits ?
R : Vérifiez d'abord si l'en-tête de la requête est complet ou non, puis essayez une autre adresse IP. Utilisez l'offre entreprise d'ipipgo pour obtenir un taux de réussite plus élevé !
Q : Comment puis-je savoir si une procuration est en vigueur ?
A : Visiteshttp://httpbin.org/ipVoir si l'adresse IP renvoyée change
Une dernière remarque : ne vous contentez pas de regarder le prix lorsque vous choisissez un service proxy. Un service comme ipipgo peut fournirPlus de 200 ressources par paysC'est toujours une bonne idée.Programme personnalisé 1v1La seule chose qui soit vraiment fiable. En particulier leur ligne TK, les amis du commerce électronique transfrontalier ont l'habitude de dire qu'elle est très parfumée, mais il faut essayer de savoir comment elle l'est.

