
Quand le crawler rencontre l'anti-escalade : mieux vaut un détour qu'une ligne dure
Les confrères qui s'engagent dans la collecte de données comprennent que le mécanisme anti-escalade du site cible est comme un voleur. Récemment, un frère d'un comparateur de prix de commerce électronique et moi avons craché : "Je prends Axios pour écrire le script du crawler, au début c'était bon, le lendemain je bloquais l'IP !" En fait, ce problème est particulièrement fréquent, le site a constaté qu'un grand nombre de requêtes IP dans un court laps de temps, le noir direct.
C'est là qu'interviennent les IP proxy. Le principe est simpleDonnez à chaque demande un nouveau "gilet".C'est comme si différentes personnes se rendaient à tour de rôle au supermarché pour s'enquérir des prix. Avec le service d'ipipgo, qui change automatiquement d'adresse IP pour chaque demande, le site ne peut pas savoir s'il s'agit d'une personne réelle ou d'une machine qui collecte des données.
Axios Configuration Proxy en trois étapes
axios lui-même n'est pas livré avec une fonctionnalité de proxy, vous devez utiliser http-proxy-middleware ce middleware. Installez d'abord les dépendances :
npm install axios http-proxy-middleware --save
Exemple de configuration (se concentrer sur la section proxy) :
const axios = require('axios') ;
const { createProxyMiddleware } = require('http-proxy-middleware') ;
const service = axios.create({
baseURL : 'https://target-site.com',
timeout : 5000, proxy : false
proxy : false // Doit désactiver le proxy par défaut
}) ;
// Configuration du middleware proxy
const proxyOptions = createProxyMiddleware({
target : 'https://target-site.com',
changeOrigin : true,
router : function(req) {
// Obtenir l'IP dynamique du proxy auprès d'ipipgo
return `http://${ipipgo.getProxyIP()}` ;
}
}) ;
// Montage sur l'instance axios
service.interceptors.request.use(proxyOptions) ;
Un guide de la collecte HF pour sauver votre vie
Il ne suffit pas d'avoir un agent, il faut être stratégique :
| nid-de-poule | prescription |
|---|---|
| Changement d'adresse IP trop fréquent | Utiliser chaque IP pendant au moins 30 secondes avant de passer à l'autre. |
| Demandes trop régulièrement espacées | Délai aléatoire 1-5 secondes |
| Les caractéristiques de l'en-tête sont trop évidentes | Bibliothèque d'empreintes de navigateurs avec ipipgo |
Il est recommandé d'utiliser l'accès dynamique de l'API d'ipipgo, leur pool d'IP est mis à jour chaque jour de plus de 8 millions d'adresses, la probabilité d'être bloqué peut être réduite de 70%.
Combat pratique pour éviter le gouffre de l'AQ
Q : Le délai d'attente de l'adresse IP du proxy s'écoule-t-il lorsque je l'utilise ?
R : Quatre-vingt pour cent utilisent un agent libre, il est recommandé de changer la ligne exclusive d'ipipgo. La vitesse de réponse mesurée peut être contrôlée dans les 200 ms, ce qui est beaucoup plus stable que le proxy public.
Q : Comment puis-je savoir si une procuration est en vigueur ?
R : Ajoutez un journal à l'intercepteur axios :
service.interceptors.request.use(config => {
console.log('Currently using proxy:', config.proxy) ;
config ; return config.
}) ;
Q : Que dois-je faire si je rencontre un CAPTCHA ?
R : deux moyens : 1) réduire la fréquence de collecte 2) utiliser la grande réserve de proxies d'ipipgo, certains de leurs segments IP avec un crack CAPTCHA automatique, pro-test efficace.
La porte d'entrée pour choisir les services d'une agence
Le marché est un mélange de services d'agences, pour vous apprendre quelques astuces afin d'éviter le gouffre :
- Regardez la durée de survie : l'IP d'ipipgo survit en moyenne 48 heures, et les mandataires à courte durée de vie ne peuvent pas du tout gérer la collecte à haute fréquence !
- Mesurer la connectivité : ne croyez pas aux 99% annoncés, écrivez votre propre script pour le mesurer, nous avons mesuré que le taux de connectivité d'ipipgo est en effet de 97% ou plus !
- Le service après-vente : les problèmes rencontrés peuvent être résolus dans les 10 minutes, ce qui signifie que le service clientèle en ligne 7 × 24 d'ipipgo est vraiment fiable !
Enfin, il faut dire une grande vérité : l'IP proxy n'est pas une panacée, c'est la stratégie de demande qui permet d'en tirer le maximum d'effet. Comme en cuisine, des ingrédients frais (qualité du proxy) et la maîtrise du feu (stratégie de collecte) sont indispensables. Avec les services d'ipipgo et les compétences mentionnées dans cet article, la collecte quotidienne de millions de données n'est pas un rêve.

