
Wenn Crawler auf CAPTCHA treffen? Versuchen Sie diese Kombi
Kürzlich beschwerte sich ein befreundetes E-Commerce-Unternehmen bei mir, dass es bei der Verwendung von Puppeteer zur Erfassung von Produktdaten immer als Bots erkannt wird. Ich bin mit dieser Situation vertraut! Letztes Jahr, als ich jemandem bei der Erstellung eines Preisvergleichs-Tools geholfen habe, wurde die IP-Adresse alle drei Tage gesperrt. Dann habe ich einen Trick gefunden -Proxy-IP-Panzerung für PuppeteerDie Erfolgsquote wird direkt verdoppelt.
const puppeteer = require('puppeteer');
const ipipgoProxy = 'http://user:pass@gateway.ipipgo.com:9021';
(async () => {
const browser = await puppeteer.launch({
args: [ `--proxy-server=${ipipgoProxy}` ]
});
const page = await browser.newPage();
await page.goto('https://目标网站.com');
const paragraphs = await page.$$eval('p', elements =>
elements.map(el => el.innerText)
);
console.log(paragraphs);
await browser.close();
})().
Proxy-IP-Auswahl mit Sorgfalt
Es gibt alle möglichen Proxy-Dienste auf dem Markt, aber bei Puppeteer müssen Sie auf drei Dinge besonders achten:
| Typologie | Anwendbare Szenarien | Empfehlungsgrad |
|---|---|---|
| Rechenzentrum IP | Kurzfristige Tests | ★★☆☆ |
| Wohn-IP | Langfristiger Erwerb | ★★★★ |
| Mobile IP | Website zum Thema "Hochverteidigung | ★★★★☆ |
Ich habe ipipgo schon früher benutzt.Dynamischer IP-Pool für PrivatpersonenDie Funktion der automatisch wechselnden IP pro Anfrage ist wirklich dufte. Besonders geeignet für die Notwendigkeit, kontinuierlich mehrere Seiten der Szene zu betreiben, müssen nicht manuell schalten Sie diesen Punkt, eine Menge Dinge zu speichern.
Praktischer Leitfaden zur Vermeidung der Grube
Letzte Woche bin ich in eine Falle getappt, als ich einem Kunden beim Sammeln von Nachrichten geholfen habe: Natürlich habe ich einen Proxy verwendet, aber trotzdem wurde das CAPTCHA ausgelöst. Ich fand heraus, dass der Fingerabdruck des Browsers offengelegt wurde, und fügte dann diese beiden Konfigurationen hinzu, um eine sofortige Wirkung zu erzielen:
const browser = await puppeteer.launch({
headless: true,
args: [
'--disable-blink-features=AutomationControlled',
`--proxy-server=${ipipgoProxy}`
]
});
Denken Sie daran, die Einstellungen im Code zu randomisierenBenutzer-AgentDas ipipgo-Backend kann vorgefertigte UA-Listen direkt herunterladen, was ein ziemlich nettes Detail ist.
Häufig gestellte Fragen Erste-Hilfe-Kasten
F: Was sollte ich tun, wenn meine Proxy-IP plötzlich ausfällt?
A: Prüfen Sie, ob das Guthaben auf Ihrem Konto ausreicht, und es wird empfohlen, die automatische Verlängerungsfunktion von ipipgo zu aktivieren. Wenden Sie sich in Notfällen direkt an den technischen Support. Die Reaktionszeit ist etwa eine halbe Stunde schneller als bei den anderen Anbietern.
F: Wie weise ich IPs für mehrere gleichzeitig geöffnete Browser-Instanzen zu?
A: Verwenden Sie die API von ipipgo, um dynamisch IP-Pools zu erhalten und jeder Instanz unabhängige Proxys zuzuweisen. Ihre Schnittstelle zurückgeben Geschwindigkeitskontrolle innerhalb von 200ms, gemessen als direkt eine tote Konfiguration viel flexibler zu schreiben.
Tipps zur Verbesserung der Effizienz
Vor kurzem habe ich herausgefunden, dass ipipgo ein Backend hatIntelligentes RoutingFunktion, die automatisch den Knoten mit der geringsten Latenz auswählt. Mit der Abfangfunktion von Puppeteer ist die Erhöhung der Ladegeschwindigkeit von 40% kein Traum:
await page.setRequestInterception(true);
page.on('request', request => {
if(request.resourceType() === 'image')
request.abort();
request.abort(); sonst
request.continue();
});
Diese Methode eignet sich besonders für die Erfassung von Klartextinhalten, um die Bandbreite zu sparen, die für die Aufrechterhaltung der Stabilität der Proxy-Verbindung benötigt wird, und ist effektiv getestet.
Sagen Sie etwas, das von Herzen kommt.
Die Verwendung eines Proxy-IP ist wie das Tragen eines Schutzanzugs, gute oder schlechte Qualität wirkt sich direkt auf die Überlebensrate. Nach mehreren Projekten zu testen, ipipgo in derSzenario mit hoher NebenläufigkeitDie Leistung unter ist wirklich solide, vor allem ihre IP-Reinigung Algorithmus, im Grunde gibt es keinen Fall von nur gekauft IPs blockiert werden. Die jüngste doppelte elf Veranstaltung scheint einen 30% Rabatt haben, können Freunde, die zu erneuern müssen einen Blick zu nehmen.

