
La porte d'entrée Proxy que vous devez connaître pour vous engager dans le crawling de données
Les amis qui s'adonnent au crawling de données de sites web savent que le plus grand mal de tête est d'avoir l'IP du site cible bloquée. Hier, à côté, le vieux roi crache encore, son programme de crawler vient de fonctionner pendant une demi-heure, l'IP du serveur a été bloquée, de sorte qu'il n'a pu que s'accroupir dans la salle des machines pour changer manuellement la ligne. En ce moment, si vous pouvez utiliser une IP proxy, ce n'est pas un tel gâchis ?
Les IP proxy sont, pour parler franchementHabiller les reptiles d'une cape d'invisibilitéLa première consiste à faire croire au site web que chaque requête est effectuée par un utilisateur différent. Cependant, il existe différents types de proxies sur le marché, et c'est encore pire si vous ne choisissez pas le bon. Par exemple, si vous faites de la surveillance de prix pour le commerce électronique, il est facile d'être détecté avec une IP de centre de données, et vous devez donc utiliser une IP résidentielle pour être fiable.
Trois conseils pour choisir le bon type d'IP proxy
Sur la base de notre expérience en matière de solutions pour des milliers d'entreprises, nous prenons en compte ces trois dimensions lors du choix d'un agent :
1) Il existe une différence entre le mouvement et la statique :
Les adresses IP dynamiques conviennent à l'exploration à haute fréquence (par exemple, les scripts de saisie de billets), où les adresses IP sont automatiquement modifiées toutes les 5 à 15 minutes ; les adresses IP statiques conviennent aux scénarios dans lesquels le statut de connexion doit être maintenu (par exemple, la surveillance des médias sociaux).
2) La priorité est donnée aux habitations :
Les IP résidentielles proviennent de l'Internet à haut débit domestique et les stratégies anti-escalade sont les plus difficiles à reconnaître. Les forfaits résidentiels dynamiques comme ceux d'ipipgo, à plus de 7 $ pour 1 G de trafic, s'accrochent à leurs pairs pour ce qui est du rapport qualité-prix.
3. la correspondance des protocoles :
Il est recommandé aux débutants d'utiliser directement le protocole HTTPS, ce qui permet d'économiser des efforts et de ne pas perdre de temps. Les pilotes plus anciens peuvent utiliser le protocole Socks5, dont la vitesse de transmission est plus rapide. Voici un exemple de configuration en Python :
demandes d'importation
proxies = {
'http' : 'http://user:pass@gateway.ipipgo.com:9020',
'https' : 'http://user:pass@gateway.ipipgo.com:9020'
}
resp = requests.get('destination URL', proxies=proxies)
Guide pratique pour l'appariement des lapins (version portable)
En utilisant le framework Scrapy comme exemple, ajoutez ces lignes à settings.py :
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware' : 110,
}
IPIPGO_PROXY = "http://user:pass@gateway.ipipgo.com:9020"
def process_request(request, spider).
request.meta['proxy'] = IPIPGO_PROXY
Veillez à mettreutilisateurrépondre en chantantpasserPassez à la clé que vous avez obtenue dans le backend ipipgo. Il est recommandé d'ajouter un mécanisme de tentative d'exception dans le code pour changer automatiquement de nœud IP en cas d'erreur 403.
Éviter la fosse Livre de questions et réponses
Q : Les adresses IP proxy ne fonctionnent pas lorsque je les utilise ?
Le cycle de survie de l'IP résidentielle d'ipipgo est de plus de 12 heures, l'arrière-plan peut également vérifier le taux de disponibilité de l'IP.
Q : Serai-je bloqué si j'ai plusieurs fils de discussion ouverts en même temps ?
R : Examinez le type de paquet proxy. Dynamic Residential (Enterprise Edition) prend en charge 500 concurrences, et le paquet normal est recommandé pour contrôler 50 threads.
Q : Dois-je maintenir mon propre pool d'adresses IP ?
R : Il suffit d'utiliser l'interface API d'ipipgo pour attribuer automatiquement une nouvelle IP à chaque demande. exemple de code :
import random
def get_proxy().
proxy_list = requests.get("https://api.ipipgo.com/dynamic").json()
return random.choice(proxy_list)
Comment choisir un forfait économique
Dimensionné en fonction de la taille de l'entreprise :
- Petits projets individuels : résidentiel dynamique (standard) 7,67 $/GB
- Acquisition au niveau de l'entreprise : 9,47 $/GB pour le service résidentiel dynamique (entreprise) (avec des privilèges de concurrence élevés)
- Exigences en matière de surveillance à long terme : 35 $/IP/mois pour les habitations statiques
Enfin, je voudrais rappeler aux débutants de ne pas faire confiance à ces agents gratuits. Nous avons reçu beaucoup de cas, des clients bon marché avec IP gratuit, le résultat des données n'a pas attrapé, mais a été implanté des scripts d'exploitation minière. Les fournisseurs de services habituels disposent d'un mécanisme d'audit du trafic, comme la ligne dédiée d'ipipgo, les opérateurs sont directement signés, la sécurité de ce morceau de pinch mort.

