
A. Pourquoi votre crawler est-il toujours bloqué ? L'adresse IP est exposée !
Récemment, un ami qui fait du commerce électronique s'est plaint à moi que le script de crawler qu'il avait écrit était bloqué après trois jours d'exécution. J'ai jeté un coup d'œil aux enregistrements du journal et j'ai découvert que le problème - ce copain qui possède sa propre plate-forme IP à large bande rigide et son propre système anti-escalade - méritait d'être bloqué ! C'est comme aller au supermarché pour essayer de manger à chaque fois la même veste verte fluorescente, les agents de sécurité ne vous regardent pas pour regarder qui ?
En voici une.Points clés de la connaissanceLe système de contrôle du vent du site web identifiera le trafic anormal par l'adresse IP. Si vous utilisez toujours la même adresse IP pour des accès très fréquents, le trafic sera limité s'il est faible, ou interdit de façon permanente s'il est important. La solution est simple : faire en sorte que le programme se comporte comme un véritable utilisateur.Chaque visite comporte un "identifiant web" différent.(ou adresse IP).
II. vous apprendre à créer une "carte d'identité virtuelle".
Préparez d'abord les matières premières (la bibliothèque à installer) :
pip install faker requests
Code hardcore supérieur (avec commentaires détaillés) :
from faker import Faker
import random
def generate random IP(): :
Utilise des noms de variables chinoises pour être plus terre à terre
Générateur d'ID virtuel = Faker()
Choisir au hasard un segment IP courant en Chine
Pool d'adresses IP provinciales = {
'zhejiang' : ['36.26', '122.225'],
'Beijing' : ['123.113', '210.75'].
}
Random province = random.choice(list(province IP pool.keys()))
Trois premiers segments = random.choice(province IP pool[random province])
dernier segment = str(random.randint(1,254)) éviter 0 et 255
return f"{trois premiers segments}. {random.randint(1,254)}. {fin du paragraphe}"
Troisièmement, comment utiliser l'IP générée en toute sécurité ?
Attention ! L'insertion de fausses adresses IP directement dans les requêtes ne fonctionnera pas, vous devez utiliser un serveur proxy pour faire le relais. Nous recommandons ici d'utiliserLes services proxy de qualité d'ipipgoIls proposent un forfait particulièrement intéressant pour les débutants :
| Type d'emballage | Nombre de PI | Scénarios applicables |
|---|---|---|
| Pack d'essai pour débutants | 500 par jour | Acquisition de petites données |
| Édition exclusive pour les entreprises | illimité | Activités à long terme dans le domaine des chenilles |
Exemple de code réel (n'oubliez pas de le remplacer par votre propre compte ipipgo) :
demandes d'importation
proxy settings = {
'http' : 'http://用户名:密码@gateway.ipipgo.com:9020',
'https' : 'http://用户名:密码@gateway.ipipgo.com:9020'
}
response = requests.get('destination url', proxies=proxy settings, timeout=10)
Quatrièmement, l'ancien conducteur ne connaît que les techniques d'anti-blocage.
1. Tempo de commutation IPNe soyez pas trop régulier, arrêtez-vous au hasard comme une vraie personne.
2. en conjonction avec le générateur aléatoire User-Agent (bibliothèque recommandée fake_useragent)
3) L'utilisation d'ipipgo est recommandée pour les collectes de données importantes.IP statique de longue duréeLa stabilité est 3 fois supérieure à celle de l'IP dynamique
4) Ne soyez pas dur avec les CAPTCHA, passez par une plateforme de codage s'il le faut.
V. Foire aux questions AQ
Q : Puis-je utiliser mon propre IP ?
R : La fausse IP générée ne peut être utilisée que pour falsifier les en-têtes de requête, la requête réseau réelle doit passer par un serveur proxy normal comme ipipgo.
Q : Que choisir, l'IP dynamique ou l'IP statique ?
R : la collecte à court terme avec l'IP dynamique (bon marché), l'activité à long terme avec l'IP statique (stable). L'arrière-plan d'ipipgo peut toujours changer de type.
Q : Que dois-je faire si l'IP de mon proxy est lente ?
A:在ipipgo控制台筛选低于50ms的节点,建议优先选本省IP段。
Enfin, je voudrais dire quelque chose qui me tient à cœur : la collecte de données est comme le jeu du chat et de la souris, vous pouvez obtenir deux fois plus de résultats avec deux fois moins d'efforts en utilisant les bons outils. J'ai récemment utilisé la version entreprise d'ipipgo, leurs techniciens peuvent également aider à personnaliser la stratégie anti-blocage, qui est l'un des rares acteurs fiables dans le service proxy.

