
Il s'agit probablement du guide le plus concret des efforts de Puppeteer en matière de lutte contre le blocage.
Les amis crawlers comprennent que Node.js et Puppeteer sont certes fluides, mais que l'IP est bloquée, c'est aussi un vrai casse-tête. Récemment, pour aider quelques amis à collecter des données sur le commerce électronique, j'ai trouvé une astuce ---Rotation de l'IP du proxyCela fonctionne dix fois mieux que si vous ajoutez du sommeil à votre code. Cela fonctionne dix fois mieux que si vous mettiez du sommeil ou autre chose dans votre code.
Pratique de l'intégration d'agents dans Puppeteer
Tout d'abord, nous devons déterminer comment transmettre l'IP du proxy au navigateur. En voici uneParamètres clésIl manquera à beaucoup de gens :
| terme de paramètre | une posture correcte |
|---|---|
| paramètre d'amorçage | -proxy-server=http://username:password@ip:port |
| Méthode d'authentification | Il est recommandé d'utiliser l'authentification par liste blanche pour éviter d'avoir à gérer les mots de passe dans le code. |
Un exemple concret : avec le proxy résidentiel dynamique d'ipipgo, l'API peut extraire directement les dernières adresses IP, comme l'indique le code :
const proxy = await ipipgo.getProxy() ; // passez ici à votre propre API
const browser = await puppeteer.launch({
args : [`--proxy-server=${proxy.url}`]
}) ;
Trois pièges de la rotation de la propriété intellectuelle à éviter
1. changer trop souventCertains frères changent d'IP toutes les 3 visites de la page, ce qui a pour effet de déclencher le contrôle de vent du site. Le test proprement dit en bas, l'agent résidentiel propose30 demandes/IPIl est plus sûr.
2. lit. têtu et rigide contre le CAPTCHALa seule solution est de changer votre adresse IP immédiatement lorsque vous rencontrez un CAPTCHA. Il est recommandé de correspondre à la plateforme de codage tierce, ne pas mourir avec le code de vérification !
3. Ignorer les paramètres du fuseau horaireCertains sites web détectent le fuseau horaire du navigateur, n'oubliez donc pas d'ajouter ce qui suit à vos paramètres de démarrage-timezone=Asia/Shanghai
Conseils pratiques et astuces
Voici quelques conseils privés à partager :
- Dans le fichier page.evaluate, ajoutez unDéfilement aléatoireIl simule l'action d'une personne réelle qui navigue.
- Utilisation du plugin user-agent-overrideCommutation aléatoire de l'UA
- suivi essentielTemps de chargement des pagesSi cela prend plus de 5 secondes, il changera automatiquement d'adresse IP (le temps de réponse d'ipipgo est mesuré à 1,8 seconde).
Questions fréquemment posées
Q:Pourquoi mon agent ne peut-il pas se connecter ?
R : Vérifiez d'abord que le format du proxy n'est pas correct ; il est recommandé d'utiliser ipipgo.Générer un code en un clicFonctionnalité, copier-coller direct sans erreur
Q : Que dois-je faire si je rencontre une protection Cloudflare ?
A : Essayez ipipgo'sAgents résidentiels principauxLe taux de réussite du pool IP de leur domicile peut atteindre plus de 92%, ce qui est beaucoup plus fort qu'un proxy ordinaire.
Q : Comment puis-je savoir si une procuration est en vigueur ?
A : Accès dans le navigateuripinfo.ioCe type de test permet de vérifier si l'adresse IP affichée est une adresse proxy.
Choisissez un agent en tenant compte des indicateurs suivants
Il existe une grande variété de services d'agence sur le marché, il est donc conseillé de se concentrer sur ceux-ci :
- Pureté de l'IP (affecte directement la durée de survie)
- Rapidité de réponse (tout ce qui est supérieur à 3 secondes est recommandé pour un passage direct)
- Réponse après-vente (la vitesse de réponse aux ordres de travail d'ipipgo est mesurée dans les 15 minutes)
Enfin, pour être honnête, dans le domaine des crawlersLes outils déterminent la limite inférieure, les stratégies déterminent la limite supérieure. Le choix du bon fournisseur de services proxy équivaut à la moitié du succès, comme ipipgo, qui offre des services de proxy de qualité.Stratégie de commutation intelligenteLe prestataire de services peut gagner beaucoup de temps dans le pliage. Après tout, notre temps vaut bien plus que les frais d'agence.

