
Le enseñará a utilizar el proxy IP para resolver el problema de la captura de datos
Participar en la captura de datos amigos entienden que el mayor dolor de cabeza es el sitio de destino bloqueado IP. ayer también corrió un buen guión, hoy en día, un hiato repentino. Esta vez tenemos que sacar nuestro salvador - elIP proxyLo primero que tienes que hacer es ensuciarte las manos. No se apresure a golpear el código, primero escúchame regañar a la puerta de esto.
¿Por qué tengo que utilizar una IP proxy?
Para dar un ejemplo real: Xiaoming quiere atrapar los datos de precios de una plataforma de comercio electrónico, y al principio es bastante suave para utilizar la IP de su propio ordenador para atraparlo. Como resultado, en el tercer día, me encontré con que el retorno es de error 403, la IP original fue retirado por el sitio negro. En este momento, si se utiliza elipipgoLa piscina proxy dinámico, cada solicitud de una nueva IP, al igual que el juego se abrió armadura resurrección ilimitada, simplemente no puede ser bloqueado.
solicitudes de importación
proxies = {
'http': 'http://username:password@gateway.ipipgo.com:9020',
https: http://username:password@gateway.ipipgo.com:9020
}
response = requests.get('URL de destino', proxies=proxies, timeout=10)
¿Cuáles son los indicadores más importantes a la hora de elegir una IP proxy?
Existen numerosos proveedores de servicios de agencia en el mercado, pero los fiables deben cumplir estas condiciones:
- El tiempo de supervivencia debe ser corto:Es mejor cambiar de IP automáticamente en 3-5 minutos, no utilices los que dicen ser eficaces a largo plazo
- Ubicación geográfica:Como ipipgo puede proporcionar nodos en más de 200 ciudades, es muy conveniente para captar datos geográficos.
- El índice de respuesta debería ser constante:No exceda 800ms, o los datos se agotarán antes de ser capturados.
Guía práctica para evitar el pozo
Tres errores comunes de los novatos:
1. Utilice una única IP durante mucho tiempo (se recomienda utilizar cada IP un máximo de 20 veces).
2. Olvidarse de configurar el parámetro de tiempo de espera (se da por vencido a los 10 segundos)
3. No espaciar las peticiones (al menos 1,5 segundos entre peticiones)
from scrapy.downloadermiddlewares.retry import RetryMiddleware
class CustomProxyMiddleware(object): def process_request(self, request, spider): class CustomProxyMiddleware(object).
def process_request(self, request, spider).
request.meta['proxy'] = "http://动态认证账号:密码@gateway.ipipgo.com:9020"
request.meta['download_timeout'] = 15
Preguntas frecuentes Botiquín de primeros auxilios
Q:¿Qué debo hacer si la IP proxy de repente no se conecta?
R: Primero comprueba que la información de autenticación no es correcta, y luego contacta con el servicio de atención al cliente de ipipgo para comprobar el estado del nodo, ¡responden más rápido que un chico de la comida para llevar!
P: ¿Qué debo hacer si el rastreo es lento?
R: Prueba estos trucos:
1. Conmutación de las diferentes líneas de sala de ipipgo
2. Cambie el UA en la cabecera de la petición a un navegador convencional.
3. Activar la transferencia con compresión gzip
Recomendación concienzuda de proveedores de servicios de agentes
Después de utilizar 7 u 8 proveedores de servicios, acabé utilizando ipipgo a largo plazo por tres razones:
1. Tecnología única de puerto dinámico, ¡el efecto antibloqueo es excepcional!
2. Existen paquetes de optimización específicos para el rastreo de datos
3. El servicio de atención al cliente está en línea las 24 horas del día, ¡las últimas 3:00 a.m. preguntas contestadas en segundos!
Recientemente han tenido una prueba gratuita para nuevos usuarios, regístrese y obtenga 1G de tráfico gratis. Se recomienda tomar la cantidad libre de probar, adecuado y luego comprar un paquete mensual. De todos modos, mi equipo es ahora más de 20 proyectos de rastreo todos se ejecutan en su agente, estable un lote.
Por último, me gustaría decir que la captura de datos es un proceso largo y lento. No seas codicioso a la rápida al otro servidor se estrelló, establecer un número razonable de concurrencia y la frecuencia de solicitud. Después de todo, el uso de proxy IP es para la estabilidad a largo plazo de trabajo, no para participar en ataques DDOS, dices ¿verdad?

