
I. Pourquoi les données d'exploration sont-elles toujours rejetées ? Essayez de changer de gilet
Si vous commencez tout juste à utiliser Python pour capturer des données, il est probable que vous rencontriez cette merde : il suffit de parcourir deux pages d'un site web, puis de faire apparaître le CAPTCHA et, après un certain temps, de bloquer directement l'IP. C'est comme aller à la cantine pour manger et se faire attraper par la tante dans la file d'attente, puis vous donner directement le rice cara black.
C'est le moment d'utiliser le proxy IP, cette méthode du "gilet". C'est comme changer sa carte de repas à chaque fois que l'on va à la cantine, pour que la tante de la cantine ne reconnaisse pas la même personne. Nous recommandonsipipgoLes services proxy, spécialisés dans la fourniture de ce type de "cape et d'épée", disposent d'un pool d'adresses IP suffisamment important pour changer rapidement.
Deuxièmement, les gilets sont des articles de seconde main.
Chargez d'abord ces deux types :
pip install requests
pip install beautifulsoup4
(après un verbe de mouvement, indique un mouvement qui s'éloigne du locuteur)Site officiel de l'ipipgoObtenez quelques adresses IP d'essai gratuites, leur API d'origine ressemble à ceci :
demandes d'importation
proxy_api = "https://api.ipipgo.com/get?token=你的令牌"
resp = requests.get(proxy_api)
proxy = resp.json()['proxy'] get fresh ip
Troisièmement, les données relatives à l'usure réelle des gilets de sauvetage
Version basique du gilet à porter :
proxies = {
'http' : 'http://'+proxy,
'https' : 'https://'+proxy
}
resp = requests.get('destination URL', proxies=proxies, timeout=10)
Les joueurs avancés peuvent jouerChangement d'auto: :
from itertools import cycle
Obtenir une série d'adresses IP à partir d'ipipgo
proxy_list = ['111.222.333.444:8888', '555.666.777.888:9999']
proxy_pool = cycle(proxy_list)
for page in range(1,6) : current_proxy = next(proxy_list)
current_proxy = next(proxy_pool)
current_proxy = next(proxy_pool) : current_proxy = next(proxy_pool)
resp = requests.get(url, proxies={'http' : current_proxy})
Traitement des données...
sauf.
print(f"{current_proxy} ce harnais fuit, passez au suivant")
Quatrièmement, à quoi dois-je faire attention lorsque je porte un gilet ?
1. ne pas trop s'amuser :Même si vous avez un gilet, ne couvrez pas le site à mort et contrôlez le rythme d'accès.
2) Le camouflage doit être complet :N'oubliez pas de mettre un User-Agent correct dans les en-têtes, et non pas la valeur par défaut de Python !
| opération de merde | une posture correcte |
|---|---|
| Pas d'en-tête. | Déguisé en chrome |
| 10 demandes par seconde | Intervalle aléatoire 1-3 secondes |
V. AQ du site de basculement commun
Q : Que dois-je faire si mon gilet ne fonctionne soudainement plus ?
R : 80% des adresses IP ont expiré, l'utilisation de l'API de remplacement automatique d'ipipgo permet à l'IP de survivre plus longtemps que celle des autres parents !
Q : Le système est-il plus lent lorsque j'utilise un proxy ?
R : les agents libres sont aussi bons, il est recommandé que les paquets payants d'ipipgo, ils ont des canaux spéciaux à grande vitesse.
Q : Vous fera-t-on prendre le thé ?
R : Ne crawlez pas de données sensibles, respectez les règles robots.txt du site web et vérifiez leurs conditions d'utilisation lorsque vous utilisez ipipgo !
VI. guide d'achat des gilets
Il existe un grand nombre de fournisseurs de proxy sur le marché, mais beaucoup d'entre eux ne sont pas très performants :
- Ils prétendent avoir des millions d'adresses IP, mais peu d'entre elles fonctionnent réellement.
- L'anonymat n'est pas suffisant pour révéler l'adresse IP réelle en quelques minutes.
- Le service clientèle est comme un robot, personne ne se préoccupe de ce qui ne va pas.
ipipgoFaire un travail plus fiable sur cette pièce :
1. pool IP exclusif, ne pas voler de "vêtements" avec d'autres
2. prise en charge des protocoles multiples HTTPS/SOCKS5
3. avec une équipe technique professionnelle pour surveiller, le taux de survie IP peut être supérieur à 95%.
4. Essai de 3 jours pour les nouveaux utilisateurs, qui n'ont pas peur d'être sollicités.
Enfin, si les crawlers sont bons, il ne faut pas être trop gourmand. Avec ipipgo, ces prestataires réguliers, à la fois pour se protéger et pour ne pas alourdir le site, ce qui est la solution à long terme. Si vous commencez à apprendre, il est recommandé de commencer par jouer avec leurs formules gratuites, puis de passer aux fonctionnalités avancées lorsque vous aurez pris le coup de main.

