
Esta es probablemente la guía más tangible de los esfuerzos antibloqueo de Puppeteer
Crawler amigos entienden, con Node.js con Puppeteer aunque suave, pero la IP está bloqueada es también un verdadero dolor de cabeza. Recientemente, para ayudar a algunos amigos para hacer la recopilación de datos de comercio electrónico, encontró un truco ---.Rotación de IP proxyEsto funciona diez veces mejor que si pones sleep o algo en tu código. Esto funciona diez veces mejor que si pones sleep o algo así en tu código.
Introducción de agentes en Puppeteer
En primer lugar, tenemos que averiguar cómo introducir la IP del proxy en el navegador. He aquí unaParámetros claveMucha gente lo echará de menos:
| término de parámetro | postura correcta |
|---|---|
| parámetro de cebado | -proxy-servidor=http://username:password@ip:puerto |
| Método de autenticación | Se recomienda utilizar la autenticación de lista blanca para ahorrar la molestia de tratar con contraseñas en el código. |
Un ejemplo real: con el Proxy Residencial Dinámico de ipipgo, su API puede obtener las últimas IPs directamente. el código lo dice:
const proxy = await ipipgo.getProxy(); // cambia aquí a tu propia API
const browser = await puppeteer.launch({
args: [`--proxy-servidor=${proxy.url}`]
});
Tres escollos de la rotación de propiedad intelectual en los que no debe caer
1. cambiar con demasiada frecuencia: Algunos hermanos cambian su IP cada 3 visitas a la página, lo que resulta en la activación del control de viento del sitio. La prueba real hacia abajo, el agente residencial sugiere30 solicitudes/IPEs más seguro.
2. lit. testarudo y rígido contra CAPTCHALa única solución es cambiar su dirección IP inmediatamente cuando se encuentra con un CAPTCHA. ¡Se recomienda para que coincida con la plataforma de codificación de terceros, no morir con el código de verificación!
3. Ignorar la configuración de la zona horaria: Algunos sitios web detectan la zona horaria del navegador, así que recuerde añadir lo siguiente a sus parámetros de inicio-timezone=Asia/Shanghai
Trucos y consejos prácticos
He aquí algunos consejos privados para compartir:
- En page.evaluate añade unDesplazamiento aleatorioLa simulación de la acción de navegación de una persona real.
- Uso del plugin user-agent-overrideCambio aleatorio de UA
- control claveTiempo de carga de la páginaSi tarda más de 5 segundos, cambiará automáticamente de dirección IP (el tiempo de respuesta de ipipgo se mide en 1,8 segundos).
Preguntas frecuentes
P:¿Por qué no puede conectarse mi agente?
R: En primer lugar compruebe el formato de proxy no es correcto, se recomienda utilizar ipipgo proporcionarGenerar código con un clicFunciones, copiar y pegar directamente sin errores
P: ¿Qué debo hacer si me encuentro con la protección de Cloudflare?
R: Pruebe ipipgo'sAgentes Residenciales SeniorLa tasa de paso de IP pool de su casa puede llegar a más de 92%, que es mucho más fuerte que el proxy ordinario.
P: ¿Cómo puedo saber si un poder está en vigor?
R: Acceso en el navegadoripinfo.ioEste tipo de sitio de prueba, para ver si la IP mostrada es una IP proxy
Para elegir a un agente, fíjese en los siguientes indicadores
Existe una gran variedad de servicios de agencia en el mercado, por lo que es aconsejable centrarse en ellos:
- Pureza IP (afecta directamente al tiempo de supervivencia)
- Velocidad de respuesta (se recomienda que todo lo que supere los 3 segundos sea un pase directo)
- Respuesta postventa (medida de la velocidad de respuesta de las órdenes de trabajo de ipipgo en 15 minutos)
Y por último, para ser honesto, en el negocio de los rastreadoresLas herramientas determinan el límite inferior, las estrategias determinan el límite superior. Elegir el proveedor de servicios proxy adecuado equivale a la mitad del éxito, como ipipgo, que ofreceEstrategia de conmutación inteligenteEl proveedor de servicios puede ahorrar mucho tiempo en el plegado. Al fin y al cabo, nuestro tiempo vale mucho más que los honorarios de la agencia.

