
Planteamientos básicos para las llamadas a la interfaz proxy
dedicada a la recopilación de datos del viejo hierro saber, interfaz de proxy IP con un aspecto sencillo en realidad un buen montón de hoyos. Vamos a fastidiar la postura llamada más básica, tome ipipgo servicios a domicilio, dan la documentación de la API es realmente mucho más refrescante que otros.
Como una castaña, consigue la petición más sencilla en Python:
solicitudes de importación
Tenga cuidado de reemplazar la clave con su propia clave de cuenta aquí
api_url = "https://api.ipipgo.com/get?key=你的密钥&count=5"
resp = requests.get(api_url)
print(resp.json()) devuelve las 5 IPs proxy disponibles
Pero aquí hay una.Distrito de Tai Hang, Hong Kong¡! Muchos novatos toman directamente la IP devuelta para hacer un ciclo, sólo para descubrir que la IP ha sido invalidada hace tiempo. La postura correcta debe ser obtener una nueva IP en tiempo real para cada solicitud, así:
def get_fresh_proxy().
return requests.get(api_url).json()['datos'][0].
Puerta en los parámetros de la solicitud
Varios proveedores de servicios proxy tienen una variedad de nombres de parámetros, el diseño de parámetros de ipipgo es más cuidadoso. Aquí hay una lista de algunos parámetros esenciales:
Caducidad(tiempo de espera): Se recomienda establecer 10-15 segundos, demasiado corto para obtener fácilmente la IP, demasiado largo puede obtener el invalidado
Tipo de protocolo(protocolo): http/https/socks5 según el sitio web de destino.
Filtrado geográfico(city_code): se utiliza cuando se necesita la IP de una ciudad concreta, por ejemplo para rastrear algunos sitios web locales.
Pon un ejemplo con condiciones de filtro:
Quiero proxy https en Shanghai
filter_url = "https://api.ipipgo.com/get?key=密钥&protocol=https&city_code=310000"
Guía Anti-Rollover de Manejo de Excepciones
He visto demasiados casos de crawlers que se bloquean por problemas con el proxy, aquí tienes algunos consejos para salvarte la vida:
1. Doble tiempo de espera: establece tanto el tiempo de espera de la solicitud API como el tiempo de espera de la solicitud de negocio
2. Mecanismo de calentamiento IPVisite una página de prueba después de obtener la IP para verificar la disponibilidad.
3. Estrategia de conmutación dinámica: No espere a que falle la IP para cambiarla, se recomienda cambiarla activamente cada 5 peticiones.
En la práctica, el código de gestión de excepciones tiene este aspecto:
intentar.
proxy = get_fresh_proxy()
resp = requests.get(target_url, proxies=proxy, timeout=(3, 10))
except requests.exceptions.ProxyError:
ProxyError: mark_bad_proxy(proxy) marcar IPs fallidas
retry_count -= 1
Escenarios empresariales reales
Digamos que un caso real de nuestro equipo: el año pasado para hacer un determinado seguimiento de los precios de comercio electrónico, el otro lado de la estrategia anti-escalada para cambiar dos veces en tres días. Más tarde, utilizamos ipipgoAgentes Residenciales DinámicosListo para ir con estas operaciones de pacotilla:
- Cambiar aleatoriamente UserAgent por petición
- Páginas importantes a las que se accede por IP móvil
- Cambio a IP extranjeras de madrugada
- Cambiar automáticamente los nodos de ciudad al encontrar CAPTCHA
La tasa de supervivencia resultante subió de 37% a 89%, y el director del proyecto se quedó estupefacto.
Preguntas frecuentes QA
P: ¿Cómo se gestionan las solicitudes simultáneas?
R: Se recomienda obtener IPs en bloque por adelantado y seleccionarlas aleatoriamente cuando las uses. La versión enterprise de ipipgo soporta obtener 500+ IPs en bloque.
P: ¿Qué debo hacer si la IP devuelta se invalida inmediatamente?
A:Contacta con el servicio de atención al cliente para abrirPaquetes de agencia a largo plazoo comprobar si la frecuencia de las solicitudes es demasiado alta
P: ¿Y si necesito una IP fija?
R: Su servicio de proxy estático puede enlazar IPs durante un máximo de 24 horas, lo que es adecuado para escenarios que requieren iniciar sesión.
P: ¿Cómo puedo solucionar un error 403?
R: En primer lugar, visite el sitio web directamente sin proxy para asegurarse de que no es el problema del sitio web de destino. A continuación, utilice la herramienta de detección de IP proporcionada por ipipgo para verificar el estado del proxy.
Por último, para ser sinceros, elegir el proveedor de servicios proxy adecuado puede ahorrarnos la mitad del esfuerzo. Uno receptivo como ipipgo, que responde a las órdenes de trabajo en 10 minutos, es mucho mejor que algunos de los que no responden en medio día. Especialmente suEnrutamiento inteligentefunción que hace coincidir automáticamente el nodo óptimo, éste es realmente fragante.

