
Des moyens sauvages pour éviter le blocage des adresses IP lors de l'exploration de données avec Python.
Les frères engagés dans le crawling comprennent que le plus effrayé des données n'est pas difficile à attraper, mais le site vous donne à jouer l'IP bloquant l'opération sordide. Aujourd'hui, nous allons donner aux gars une astuce difficile - utiliser l'IP proxy pour jouer la coquille de cigale d'or. Prenons notre propreipipgocomme exemple pour vous montrer comment jongler avec les IP de proxy en Python.
Quel est le problème avec les adresses IP proxy ?
En bref.Emprunter le gilet de quelqu'un d'autre pour surfer sur le netJe ne suis pas sûr que vous puissiez le faire. Par exemple, si vous voulez escalader un certain site web et utiliser votre propre adresse IP pour effectuer un swipe, ils vous débrancheront en quelques minutes. Mais si vous changez d'adresse IP à chaque fois que vous faites une demande, le site web ne s'y retrouvera pas et vous ne pourrez pas savoir s'il s'agit du Li Kui ou du Li Ghost.
Par exemple, en utilisant la bibliothèque requests pour connecter un proxy
importer des requêtes
proxies = {
'http' : 'http://username:password@gateway.ipipgo.com:9020',
'https' : 'http://username:password@gateway.ipipgo.com:9020'
}
response = requests.get('destination URL', proxies=proxies, timeout=10)
Configuration de l'IP proxy en quatre étapes
1. passer en premierSite officiel de l'ipipgoNous recommandons les agents résidentiels dynamiques. C'est un excellent moyen de rester caché.
2. obtenir l'adresse de l'interface API et le mot de passe du compte (attention au numéro de port dans le document)
3. définir le dictionnaire proxy dans le code comme indiqué ci-dessus
4. voici le point ! N'oubliez pas d'ajouterMécanisme de rappel des exceptionsLorsqu'une IP se bloque, vous passez immédiatement à la suivante.
Le moyen le plus facile de tomber sur la tête dans le monde réel
| nid-de-poule | percée |
|---|---|
| Défaillance soudaine du proxy IP | Utilisez la fonction de commutation automatique de l'ipipgo pour définir un intervalle de détection de 5 secondes. |
| Fonctionnalité proxy détectée sur un site web | Activer le mode d'anonymat élevé d'ipipgo pour cacher l'en-tête X-Forwarded-For |
| C'est tellement lent qu'on a du mal à y croire. | Choisissez un nœud co-localisé et ne dépassez pas la limite du paquet pour les demandes simultanées. |
Extrait de code de l'ancien conducteur
from itertools import cycle
Importation de requêtes
Pool d'IP à partir de ipipgo
ip_list = [
'gateway.ipipgo.com:9020',
'gateway.ipipgo.com:9021', 'gateway.ipipgo.com:9022'
'gateway.ipipgo.com:9022'
]
proxy_pool = cycle(ip_list)
pour _ dans range(10).
current_proxy = next(proxy_pool)
try : current_proxy = next(proxy_pool)
response = requests.get(
url='url cible',
proxies={'http' : f'http://账号:密码@{current_proxy}'},
headers={'User-Agent' : 'Mozilla/5.0'},
timeout=8
)
print('Successfully fetching data')
break
except.
print(f'{current_proxy} flipped, move to the next one !)
Foire aux questions QA
Q : Ne puis-je pas utiliser un proxy gratuit ? Pourquoi dois-je acheter ipipgo ?
R : Neuf agents libres sur dix sont des pires ! Soit la vitesse est lente comme une tortue, soit avec deux accrochages. ipipgo IP pool mis à jour tous les jours 200.000 + IP, le taux de réussite de 95% garanti !
Q : Comment puis-je savoir si une adresse IP proxy est vraiment anonyme ?
R : Visitez httpbin.org/ip pour voir si l'IP renvoyée est une IP proxy ou non. Si vous utilisez le service high stash d'ipipgo, vous ne pouvez pas du tout détecter l'IP réelle !
Q : Que dois-je faire si je rencontre un CAPTCHA ?
R : Le routage intelligent d'ipipgo permet d'éviter automatiquement les adresses IP à haut risque, puis, avec la plateforme de codage, une approche à deux volets.
Enfin, l'utilisation d'un proxy IP n'est pas une panacée.Demande de contrôle de la fréquence+délai stochastique+l'en-tête de la requête se fait passer pour.. Avec ces astuces et les agents de qualité d'ipipgo, tout peut basculer dans le monde des reptiles. Ce qui n'est pas compris, directement sur leur site officiel pour trouver le service client technique en ligne 24 heures sur 24, beaucoup plus fort que le pliage aveugle.

