
Te enseñamos a usar Selenium + proxy IP para romper el anti-escalado de sitios web
Hermanos que participan en el rastreo saben que el mecanismo anti-escalada del sitio es ahora más y más refinado. Hoy hablamos de un truco difícil - con Selenio con IP proxy, que se especializa en una variedad de dificultades anti-escalada. Este truco puede ser más útil que el encabezado de la solicitud ordinaria disfraz, después de todo, las huellas dactilares del navegador este sitio cosa no puede ser bueno para romper.
¿Por qué tu rastreador siempre queda atrapado?
La mayoría de los sitios web se fijan en tres puntos clave:Frecuencia de solicitud, características IP, huellas del navegadorLo primero que tienes que hacer es enviar una petición usando sólo la librería requests. Sólo usando la biblioteca de peticiones para enviar peticiones no es diferente de ejecutar desnudo. Por ejemplo, un sitio de comercio electrónico encontró que la misma solicitud de IP 50 veces por minuto, de inmediato le dará una lista negra. Esta vez si puedeCambiar IP cada 5 peticionesEl porcentaje de éxito se duplica directamente cuando se combina con un entorno de navegación real.
Configuración real de Selenium+Proxy IP
Empecemos con cómo conectar una IP proxy en Selenium. Se recomienda la de ipipgo.Agentes Residenciales DinámicosLa API es muy conveniente para los ladrones de IP. Mira el ejemplo de código:
from selenium import webdriver
proxy = "123.123.123.123:8888" Utilice aquí la interfaz de extracción ipipgo.
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument(f'--proxy-server=http://{proxy}')
driver = webdriver.Chrome(options=opciones_cromo)
driver.get("https://目标网站.com")
Cuidado con los baches:Tienes que probar la disponibilidad de la IP del proxy, se recomienda utilizar ipipgo'sInterfaz de detección de supervivenciapara evitar que las IP muertas bloqueen el rastreador.
Conmutación dinámica de IP
No basta con utilizar un agente, hay que hacerlo.Rotación del grupo IPLo primero que tienes que hacer es utilizar la API de ipipgo para acceder al crawler. Hay un truco aquí: el acceso a la API de ipipgo al sistema de rastreo, cada vez que se inicia una nueva instancia del navegador cambiará automáticamente la IP. probar un sitio de reclutamiento con este método, la recolección continua de 8 horas sin ser bloqueado.
| Tipo de programa | Tiempo de supervivencia IP | Escenarios aplicables |
|---|---|---|
| Agentes dinámicos de acción corta | 3-10 minutos | Escenario de solicitud de alta frecuencia |
| Agentes estáticos de larga duración | 24 horas | retención |
Las dieciocho formas de contradetección
No basta con cambiar la IP, hace falta un disfraz completo:
- Aleatorizar la trayectoria del ratón (no dibujar líneas rectas)
- Simulación de una persona real desplazándose por una página (rápido y lento)
- Tiempo de espera aleatorio (0,5-3 segundos variable)
- Con ipipgo.GeolocalizaciónFunción para hacer coincidir las zonas horarias de la IP y del navegador
Preguntas frecuentes
P: ¿Qué debo hacer si mi IP proxy va lenta?
R: Ir con ipipgo'sUso exclusivo de líneas de alta velocidad,实测能压到200ms以内。别贪便宜用共享池,速度真的拉胯。
P: ¿Cómo rompo el CAPTCHA cuando me lo encuentro?
R: Dos ideas: ① utilizar ipipgo'sSalida fija IPCooperar con la plataforma de codificación ② cambiar automáticamente IP + borrar las cookies después de activar el código de verificación.
P: ¿Cómo puedo comprobar si el proxy funciona?
R: Visite http://ip111.cn这类检测网站 y céntrese enTres parámetros claveCoherencia de la dirección IP, zona horaria y ubicación de la resolución DNS
Por último, me gustaría recordar a los hermanos que tienen que fijarse en los servicios de la agencia.Pureza IPHe utilizado algunos de los proxies más pequeños antes. Utilicé algunos proxies de fábricas pequeñas antes y las IPs fueron marcadas hace tiempo como centros de datos por sitios web importantes. Ahora he estado usando el proxy residencial de ipipgo, y la tasa de éxito es estable en más de 92%. La clave es su homeCobertura nacional en más de 300 ciudades, lo que resulta especialmente fluido cuando se realiza la recogida geográfica.

