
En primer lugar, ¿por qué siempre se atasca la recopilación de datos? Veamos si su IP está siendo objeto de ataques.
Hermanos que han participado en el rastreo de datos entender que lo más temible es que el programa se está ejecutando y de repente se quedó atascado. El mes pasado un amigo de comercio electrónico y me quejé, subieron el precio de los competidores, acaba de agarrar 2000 datos en el sitio de destino pellizcado. Le dejé salir los registros para ver - buen tipo, la misma dirección IP envió más de 800 solicitudes consecutivas, el sitio no es un tonto, no bloquear a bloquear quién?
Entonces es el momento de mudarse.grupo de IP proxyEsta es una gran herramienta. En pocas palabras, es preparar un montón de diferentes direcciones IP, como un turno como la rotación. Por ejemplo, con el proxy dinámico residencial de ipipgo, cada solicitud cambia automáticamente entre las diferentes regiones de la IP real del usuario, el sitio simplemente no puede distinguir entre máquinas o personas reales.
importar peticiones
from itertools import ciclo
Lista de proxies del backend ipipgo
proxies = [
"http://user:pass@gateway.ipipgo.com:8001",
"http://user:pass@gateway.ipipgo.com:8002".
... Preparar al menos 20 más
]
proxy_pool = cycle(proxies)
para página en rango(1,100): proxy_actual = siguiente(proxy_pool)
proxy_actual = siguiente(proxy_pool)
proxy_actual = siguiente(proxy_pool)
response = requests.get(url, proxies={"http": current_proxy})
Procesando datos...
except: print(f "IP {proxy_actual}")
print(f "IP {proxy_actual} falló, cambia automáticamente al siguiente")
En segundo lugar, los tres principales elementos vitales del agente proveedor de servicios seleccionado
Hay muchos proveedores de servicios proxy en el mercado, pero realmente no hay muchos que puedan llevar a cabo proyectos de nivel empresarial. El año pasado, hicimos un seguimiento de la opinión pública para un banco y probamos 7 proveedores de servicios, y finalmente sólo ipipgo fue capaz de soportar 5 millones de peticiones al día. He aquí algunos puntos clave para la selección:
| norma | línea o puntuación de aprobado (en un examen) | ipipgo real test |
|---|---|---|
| Tamaño del grupo IP | >500,000 | 2,2 millones + IP dinámicas |
| porcentaje de éxito | >95% | 99.2% |
| capacidad de respuesta | <2 segundos | 1,3 segundos |
| Cobertura geográfica | >30 países | Más de 190 países y territorios |
En particular.Pureza IPMuchos proveedores de servicios de soplar su propia IP más, de hecho, son IP del centro de datos, esta captura un pase. agente residencial de ipipgo son de banda ancha doméstica real, hemos hecho la prueba: el mismo sitio de destino con un promedio de 300 solicitudes con el agente ordinario para sostener, con su familia puede ejecutar hasta 2.000 veces antes de desencadenar la validación.
En tercer lugar, la batalla real en la operación de pacotilla
No basta con tener un agente, tiene que ser capaz de jugar una combinación de golpes. El año pasado, durante el doble once para ayudar a una marca para hacer la comparación de precios de toda la red, confiando en estos movimientos 7 días para coger 12 millones de datos:
1. Camuflaje de tráficoNo use el User-Agent por defecto de Python, tiene 50 logos de los principales navegadores para rotar. ipipgo tiene una librería UA lista en el backend que puede llamar directamente.
2. Modo Rhythm MasterNo envíes peticiones como si fueran sangre de gallina, establece un intervalo aleatorio de 0,5-3 segundos. Hemos escrito un controlador de velocidad inteligente que se ralentiza automáticamente cuando se encuentra con un CAPTCHA.
3. relevo geográficoPor ejemplo, si quiere captar un sitio web de EE.UU., no utilice sólo IPs de Nueva York, mezcle IPs de Chicago y Los Ángeles. La función de localizador a nivel de ciudad de ipipgo le permite especificar directamente el código postal.
IV. Pits que te habrás encontrado (con soluciones)
QA1:¿Qué debo hacer si uso una IP proxy y se vuelve lenta?
El proxy pool de ipipgo actualiza automaticamente la IP 20% cada 15 minutos, se recomienda configurar el numero maximo de veces a utilizar, no sobrepasar las 100 veces para una misma IP.
QA2:¿Cómo gestionar IP abriendo 100 hilos al mismo tiempo?
¡Utiliza una herramienta de pooling de conexiones! Por ejemplo, el middleware de Scrapy, con la API de ipipgo para obtener las IPs disponibles en tiempo real. recuerda vincular cada hilo a una IP distinta, ¡no te confundas!
QA3: ¿Cómo resolver el problema al encontrar CAPTCHA?
Tres pasos: 1) Cambiar de IP inmediatamente 2) Reducir la frecuencia de peticiones 3) Entrar en una plataforma de codificación (pero hay que pagar más). Normalmente fijamos el umbral de la tasa de activación de CAPTCHA de 5%, y enviamos una alerta si lo supera
V. ¿Por qué morir por ipipgo?
Después de utilizar el servicio de proxy durante más de tres años, la selección final de ipipgo no es sin razón. Una vez a las 3 de la mañana API de acoplamiento, su tecnología realmente devolvió el mensaje en cuestión de segundos, sólo para averiguar más tarde que se trataba de un sistema de turnos de 24 horas. Más un hardcore: tienen unEnrutamiento inteligentefunción, puede seleccionar automáticamente la línea más rápida. Una vez que cogemos sitio web japonés, el sistema corta automáticamente al nodo en Tokio, la velocidad es más rápida que el acceso directo.
Publicado recientementeModelo de garantía empresarialAún más perverso, se puede reservar de antemano un grupo IP exclusivo. El mes pasado a un grupo de automóviles para hacer análisis de la competencia, 2 millones de solicitudes estables por día, 15 días consecutivos cero prohibición. Este nivel de estabilidad, el mercado realmente no puede encontrar el segundo.
(conclusión)

