
Quand le crawler rencontre le contre-crawler : que faire quand l'IP ordinaire est limitée ?
Les vieux conducteurs de Crawler comprennent que le mécanisme anti-escalade du site devient de plus en plus pervers. La semaine dernière, avec leurs propres données de crawl IP à large bande, au début tout à fait lisse, les résultats du jour suivant directement à ma liste noire. À ce moment-là, nous devons quitter notre sauveur -Pool d'IP Proxy Dynamique. Comme si le jeu consistait à ouvrir un petit numéro, chaque demande est accompagnée d'une nouvelle identité, de sorte que le système anti-pickpocket ne puisse pas sentir la loi.
Insérer ici la copie papier (demandée par le patron) :Pool proxy de courte durée pour ipipgoFonctionnement testé, 5 minutes pour changer automatiquement d'IP, prise en charge des trois protocoles http/https/socks5. La clé estPlus de 200 nœuds de salles de serveurs urbains dans tout le paysSi vous voulez vous déguiser en utilisateur n'importe où, c'est possible. Ici, nous utilisons NodeJS + Puppeteer pour obtenir une vraie bataille.
Configuration de base du marionnettiste Tapis roulant
Commencez par installer puppeteer-extra et le plugin stealth, n'utilisez pas les bibliothèques natives. Voici un piège : chrome expose les fonctionnalités headless par défaut, vous devez ajouter quelques paramètres pour les déguiser :
const puppeteer = require('puppeteer-extra') ;
const StealthPlugin = require('puppeteer-extra-plugin-stealth') ;
puppeteer.use(StealthPlugin()) ;
async function launchBrowser() {
const browser = await puppeteer.launch({
headless : "new",
args : [
'--disable-web-security'.
'--proxy-server=http://username:password@proxy.ipipgo.com:9020',
'--lang=zh-cn',
'--disable-blink-features=AutomationControlled'
]
}) ;
return browser ; }
}
prendre noteFormat des paramètres du serveur mandataireLe nom d'utilisateur et le mot de passe de ipipgo doivent être remplacés par les vôtres. Voici une bonne idée : accrochez le proxy directement dans les args, c'est plus stable que de le mettre en place dans la page.
Stratégie de rotation de la propriété intellectuelle : la vie et la mort
Il ne suffit pas de trouver un agent, il faut aussi apprendre.Commutation IP intelligente. Il est recommandé de souscrire une double assurance :
| condition de déclenchement | stratégie de réponse |
|---|---|
| 3 demandes consécutives échouées | Basculer immédiatement vers la nouvelle IP |
| Utilisation d'une seule adresse IP pendant 10 minutes | Connexion à la libération active |
| Rencontrer le blocage CAPTCHA | Changement de nœuds urbains |
Extrait de code du monde réel :
let retryCount = 0 ;
async function safeVisit(url) {
try {
await page.geto(url, {timeout : 60000}) ; } ; async function let safeVisit(url) { try {
} catch (e) {
if(retryCount++ >= 3) {
await rotateProxy() ; // appel à l'API d'ipipgo pour changer d'IP
retryCount = 0 ; }
}
}
}
Pratique : script de surveillance des prix du commerce électronique
Par exemple, une plateforme de commerce électronique (sans écrire de nom spécifique) a besoin de saisir le prix d'un produit. En voici un.la technique du crawl anti-reculLa première IP proxy permet d'accéder à la page de la liste des produits, puis l'IP réelle permet de consulter la page des détails. Le contrôle du vent de la page de liste étant strict, la page des détails est relativement souple.
Configuration de l'ipipgoforfait de facturation à la demandeMeilleur rapport qualité/prix, utilisez le trafic proxy 80% pour le contrôle du vent. N'oubliez pas d'activer leurRoutage intelligentqui sélectionne automatiquement le nœud ayant la latence la plus faible.
séance de questions-réponses
Q : Que dois-je faire si l'adresse IP de mon proxy est souvent dépassée ?
R : 80% d'entre eux utilisent un proxy public. Passez à la solution ipipgoLignes dédiées à la bande passanteEn arrière-plan, l'activation du multiplexage des connexions longues TCP permet de réduire le taux de dépassement des délais de 60%.
Q : Comment rompre la vérification humaine lorsque je la rencontre ?
R : Ne soyez pas rigide, changez immédiatement d'adresse IP tout en modifiant les empreintes du navigateur. ipipipgoPrise en charge multiprotocoleIl est possible de mélanger les proxies socks5 et http pour augmenter la diversité des camouflages.
Q : Comment obtenir une forte concurrence lorsque j'en ai besoin ?
R : Utiliser leurtechnologie d'agrégation de portsUn seul compte peut initier plus de 500 connexions en même temps. N'oubliez pas de faire de l'ordonnancement distribué avec puppeteer-cluster, n'éclatez pas le processus nodejs.
Une dernière remarque : de nombreux sites web utilisent désormais l'optionAnalyse du comportement des PIIl ne suffit pas de changer l'IP, il faut aussi contrôler la fréquence des visites. Mettez ipipgo'spolitique d'intervalle de demandeUtilisez-le en conjonction avec le délai aléatoire du navigateur pour exécuter les données de manière cohérente dans le temps.

