
Mettez la main à la pâte avec votre propre pool d'agents rampants !
Les confrères engagés dans le crawling savent que le mécanisme anti-climbing du site est maintenant de plus en plus impitoyable. Hier, vous pouviez exécuter le programme, aujourd'hui vous risquez d'être bloqué jusqu'à la mort. Cette fois, vous avez besoin d'un serveur proxy pourFaux IP réelLe site cible peut ainsi penser qu'une personne différente s'occupe de chaque demande.
Il existe de nombreux services proxy prêts à l'emploi sur le marché, mais il est plus souple et plus abordable de créer le vôtre. Nous vous apprenons ici à utiliseripipgo Proxy résidentiel dynamiqueLors d'une démonstration en direct, leur pool de ressources est suffisamment important pour que la probabilité d'être bloqué soit beaucoup plus faible.
Ne soyez pas négligent dans votre préparation.
Tout d'abord, préparez un serveur cloud (1 core 2G suffisant), le système recommandé étant CentOS7. notez que la sélection deNœuds d'outre-merLa chose la plus importante à retenir est que les serveurs nationaux sont susceptibles d'être bannis par l'association. Voici un point à rappeler : n'achetez pas ces hébergements web IP partagés bon marché, vous devez utiliser un serveur cloud IP indépendant.
Installer les outils de base
yum install -y gcc python3-devel
pip3 install proxypool
Quatre étapes pour une construction pratique
1) Se rendre sur le site officiel d'ipipgo pour ouvrir un compte, puis sélectionnerPackage Dynamic Residential (Standard)Le trafic de 1G à 7$+ est suffisant pour les tests. Trouvez le lien d'extraction de l'API dans le backend, il ressemble à ceci :
https://api.ipipgo.com/get?key=你的密钥&count=20
2) Configurer le programme proxy pool (ici avec la transformation open source proxypool) :
Modifier config.py
API_URL = 'Le lien API que vous avez obtenu ci-dessus'
VALID_CHECK_INTERVAL = 60 vérifie la disponibilité toutes les minutes
3) Démarrer le service en se souvenant d'ouvrir le port du pare-feu :
firewall-cmd --add-port=5032/tcp --permanent
systemctl restart firewalld
nohup python3 main.py > /dev/null 2>&1 &
4. appeler le pool de proxy dans le code du crawler :
import requests
def get_proxy() : return requests.get("").json().get("proxy")
return requests.get("http://你的服务器IP:5032/get").json().get("proxy")
Exemple d'utilisation
resp = requests.get(url, proxies={"http":get_proxy()})
Voir ici pour des conseils de réglage
- rencontrer403 erreurNe paniquez pas, allez à l'ipipgo et changez de coulisses.Protocole Socks5essayer
- Les scénarios à haute teneur en devises recommandent de passer à la versionÉdition Entreprise Dynamic Residential9 plus de 1G pour supporter une plus grande concurrence
- Redémarrage automatique des scripts du pool de proxy à 3 heures du matin pour éviter les fuites de mémoire
- Lorsque vous collectez des sites web européens et américains, ajoutez le lien API à la page d'accueil du site web.&country=uszone désignée
Lignes directrices sur le déminage des problèmes courants
Q : Que dois-je faire si la durée de survie de l'IP proxy est trop courte ?
R : Réglez l'intervalle de détection à 30 secondes et activez en même temps l'arrière-plan d'ipipgo.Modèle à long terme(forfaits d'entreprise requis)
Q : Et si j'ai besoin d'une adresse IP fixe pour me connecter ?
R : Passer à 35 $/moisIP résidentielle statiqueL'IP peut être utilisée pendant 30 jours.
Q : L'adresse IP renvoyée par l'API n'est pas disponible ?
R : Vérifiez d'abord les paramètres de la liste blanche, ipipgo doit lier l'IP du serveur pour appeler l'API.
Pourquoi ipipgo ?
| Type d'emballage | Scénarios applicables | Avantage tarifaire |
|---|---|---|
| Dynamique résidentielle (standard) | Petits et moyens crawlers | 7,67 $/GB |
| Dynamic Residential (Entreprise) | moteur de recherche distribué | 9,47 Yuan/GB |
| Maisons statiques | Inscription/connexion au compte | 35 $/mois |
leurAgent de ligne TKLa collecte de données sur le commerce électronique transfrontalier est particulièrement stable, avant qu'un ami ne fasse une station indépendante, l'utilisation de ce programme pour collecter 300 000 données par jour n'a pas été interrompue. La clé est une réponse rapide du service clientèle, le dernier minuit rencontrant des problèmes techniques, 10 minutes d'assistance à distance suffisent pour y remédier.
Enfin, j'aimerais rappeler aux débutants : ne faites pas de téléchargements de gros fichiers sur des serveurs proxy ! Il y a un copain qui prend le proxy pool sous le film, 1 heure pour utiliser le trafic de paquet, cette opération perte de sang. Faites de la collecte pour contrôler la fréquence des requêtes, avec User-Agent random is the king.

