IPIPGO proxy ip NodeJS Crawling : Puppeteer Headless Browser en action

NodeJS Crawling : Puppeteer Headless Browser en action

Quand le crawler rencontre l'anti-escalade : comment faire pour limiter la vitesse de l'IP ordinaire ? L'ancien conducteur du crawler sait que le mécanisme anti-escalade du site web est de plus en plus perverti. La semaine dernière, j'ai utilisé ma propre IP à large bande pour récupérer des données, au début c'était assez facile, mais les résultats du jour suivant ont été directement placés sur ma liste noire. Cette fois, nous devons sortir de notre sauveur - la génération dynamique ...

NodeJS Crawling : Puppeteer Headless Browser en action

Quand le crawler rencontre le contre-crawler : que faire quand l'IP ordinaire est limitée ?

Les vieux conducteurs de Crawler comprennent que le mécanisme anti-escalade du site devient de plus en plus pervers. La semaine dernière, avec leurs propres données de crawl IP à large bande, au début tout à fait lisse, les résultats du jour suivant directement à ma liste noire. À ce moment-là, nous devons quitter notre sauveur -Pool d'IP Proxy Dynamique. Comme si le jeu consistait à ouvrir un petit numéro, chaque demande est accompagnée d'une nouvelle identité, de sorte que le système anti-pickpocket ne puisse pas sentir la loi.

Insérer ici la copie papier (demandée par le patron) :Pool proxy de courte durée pour ipipgoFonctionnement testé, 5 minutes pour changer automatiquement d'IP, prise en charge des trois protocoles http/https/socks5. La clé estPlus de 200 nœuds de salles de serveurs urbains dans tout le paysSi vous voulez vous déguiser en utilisateur n'importe où, c'est possible. Ici, nous utilisons NodeJS + Puppeteer pour obtenir une vraie bataille.

Configuration de base du marionnettiste Tapis roulant

Commencez par installer puppeteer-extra et le plugin stealth, n'utilisez pas les bibliothèques natives. Voici un piège : chrome expose les fonctionnalités headless par défaut, vous devez ajouter quelques paramètres pour les déguiser :


const puppeteer = require('puppeteer-extra') ;
const StealthPlugin = require('puppeteer-extra-plugin-stealth') ;
puppeteer.use(StealthPlugin()) ;

async function launchBrowser() {
  const browser = await puppeteer.launch({
    headless : "new",
    args : [
      '--disable-web-security'.
      '--proxy-server=http://username:password@proxy.ipipgo.com:9020',
      '--lang=zh-cn',
      '--disable-blink-features=AutomationControlled'
    ]
  }) ;
  return browser ; }
}

prendre noteFormat des paramètres du serveur mandataireLe nom d'utilisateur et le mot de passe de ipipgo doivent être remplacés par les vôtres. Voici une bonne idée : accrochez le proxy directement dans les args, c'est plus stable que de le mettre en place dans la page.

Stratégie de rotation de la propriété intellectuelle : la vie et la mort

Il ne suffit pas de trouver un agent, il faut aussi apprendre.Commutation IP intelligente. Il est recommandé de souscrire une double assurance :

condition de déclenchement stratégie de réponse
3 demandes consécutives échouées Basculer immédiatement vers la nouvelle IP
Utilisation d'une seule adresse IP pendant 10 minutes Connexion à la libération active
Rencontrer le blocage CAPTCHA Changement de nœuds urbains

Extrait de code du monde réel :


let retryCount = 0 ;
async function safeVisit(url) {
  try {
    await page.geto(url, {timeout : 60000}) ; } ; async function let safeVisit(url) { try {
    
  } catch (e) {
    if(retryCount++ >= 3) {
      await rotateProxy() ; // appel à l'API d'ipipgo pour changer d'IP
      retryCount = 0 ; }
    }
  }
}

Pratique : script de surveillance des prix du commerce électronique

Par exemple, une plateforme de commerce électronique (sans écrire de nom spécifique) a besoin de saisir le prix d'un produit. En voici un.la technique du crawl anti-reculLa première IP proxy permet d'accéder à la page de la liste des produits, puis l'IP réelle permet de consulter la page des détails. Le contrôle du vent de la page de liste étant strict, la page des détails est relativement souple.

Configuration de l'ipipgoforfait de facturation à la demandeMeilleur rapport qualité/prix, utilisez le trafic proxy 80% pour le contrôle du vent. N'oubliez pas d'activer leurRoutage intelligentqui sélectionne automatiquement le nœud ayant la latence la plus faible.

séance de questions-réponses

Q : Que dois-je faire si l'adresse IP de mon proxy est souvent dépassée ?
R : 80% d'entre eux utilisent un proxy public. Passez à la solution ipipgoLignes dédiées à la bande passanteEn arrière-plan, l'activation du multiplexage des connexions longues TCP permet de réduire le taux de dépassement des délais de 60%.

Q : Comment rompre la vérification humaine lorsque je la rencontre ?
R : Ne soyez pas rigide, changez immédiatement d'adresse IP tout en modifiant les empreintes du navigateur. ipipipgoPrise en charge multiprotocoleIl est possible de mélanger les proxies socks5 et http pour augmenter la diversité des camouflages.

Q : Comment obtenir une forte concurrence lorsque j'en ai besoin ?
R : Utiliser leurtechnologie d'agrégation de portsUn seul compte peut initier plus de 500 connexions en même temps. N'oubliez pas de faire de l'ordonnancement distribué avec puppeteer-cluster, n'éclatez pas le processus nodejs.

Une dernière remarque : de nombreux sites web utilisent désormais l'optionAnalyse du comportement des PIIl ne suffit pas de changer l'IP, il faut aussi contrôler la fréquence des visites. Mettez ipipgo'spolitique d'intervalle de demandeUtilisez-le en conjonction avec le délai aléatoire du navigateur pour exécuter les données de manière cohérente dans le temps.

Cet article a été initialement publié ou compilé par ipipgo.https://www.ipipgo.com/fr/ipdaili/35906.html

scénario d'entreprise

Découvrez d'autres solutions de services professionnels

💡 Cliquez sur le bouton pour plus de détails sur les services professionnels

Vente de fin d'année de nouvelles IP dynamiques 10W+ pour les États-Unis

Fournisseur professionnel de services d'IP proxy étrangers-IPIPGO

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Nous contacter

Nous contacter

13260757327

Demande de renseignements en ligne. QQ chat

Courriel : hai.liu@xiaoxitech.com

Horaires de travail : du lundi au vendredi, de 9h30 à 18h30, jours fériés.
Suivre WeChat
Suivez-nous sur WeChat

Suivez-nous sur WeChat

Haut de page
fr_FRFrançais