¿El rastreador web de VBA siempre se atasca? Pruebe este truco de IP proxy
Recientemente, un montón de amigos que hacen el comercio electrónico para encontrar mi gemido, dijo que el uso de Excel para capturar el precio de los competidores es siempre fuera de la cadena. O bien la captura de datos no es completa, o la IP directamente bloqueado, lanzando la mitad de un día en la tabla sigue vacía. Hoy en día, le enseñaremos cómo utilizarVBA + Proxy IPLas combinaciones que hacen que la recogida de datos sea firme como un perro viejo.
¿Por qué su VBA siempre se extrae de los sitios web?
Muchos novatos no saben, ahora el sitio se instalan "portero electrónico". Por ejemplo, un sistema anti-escalada tesoro, recibió 30 solicitudes dentro de 1 minuto, directamente bloqueado IP. He visto el caso más despiadado, un amigo con su propia banda ancha para capturar datos, los resultados de toda la red de la empresa han sido incluidos en la lista negra.
sintomático | Causas profundas del problema |
---|---|
El rastreo es cada vez más lento | Censura IP |
Devolver datos en blanco | activar un mecanismo antitrepa |
Error 403 | La IP está completamente bloqueada |
¿Cómo renuevan VBA las IP proxy?
Y aquí es donde entra nuestro salvador...servicio proxy dinámico ipipgoEs como cambiar numerosos chalecos por Excel. Es como cambiar innumerables chalecos para Excel, y cambiar una nueva IP para cada solicitud. la prueba real con su proxy residencial, la recolección continua durante 8 horas no activó el mecanismo de protección.
Sub Crawler Con Proxy()
Dim http As Object
Set http = CreateObject("MSXML2.XMLHTTP")
' Obtenga el último proxy de ipipgo (introduzca aquí su propia API)
proxy = GetIPFrom_ipipgo() ' formato de retorno 1.2.3.4:8080
http.Open "GET", "https://目标网站.com", False
http.setProxy 2, proxy ' establece el modo proxy
http.send
' Procesar los datos devueltos...
End Sub
Configuración práctica de agentes en 3 pasos
Primer paso:Vaya al sitio web oficial de ipipgo y regístrese, después seleccione la opciónAgentes Residenciales DinámicosPaquetes, no vayas a por IPs baratas de centros de datos, son fáciles de detectar.
Segundo paso:Añadir el encabezado de autenticación de proxy a la VBA, esto es algo que mucha gente se pierda:
http.setRequestHeader "Proxy-Authorisation", "Basic " & Base64 encoding("Cuenta:Contraseña")
Tercer paso:Recuerda establecer un retardo aleatorio, no envíes peticiones como una ametralladora, se recomienda pausar aleatoriamente entre 200-800 ms.
Guía práctica para evitar el pozo
Pisé estas minas la semana pasada mientras ayudaba a un cliente con un sistema de comparación de medicamentos:
- Problema con el certificado SSL: añadir al principio del código
http.setOption(2) = 13056
verificación de derivación - IP pool reutilización: asegúrese de detectar el contenido de retorno, encontró el código de verificación de inmediato cambiar a una nueva IP
- Tiempo de espera: no se recomiendan más de 10 segundos, la velocidad de respuesta de ipipgo es generalmente de 3 segundos.
Preguntas frecuentes Botiquín de primeros auxilios
P: ¿Cuántas veces tengo que utilizar la IP proxy antes de que caduque?
R: Compruebe si está utilizando un pool de IPs compartidas, sustitúyalo por el paquete proxy exclusivo de ipipgo para solucionar el problema inmediatamente.
P: ¿No consigues aumentar la velocidad de rastreo?
R: abrir 5-10 peticiones asíncronas al mismo tiempo, con el canal de alta velocidad de 5Gbps de ipipgo, ¡la velocidad puede duplicarse 8 veces!
P: ¿Los sitios web HTTPS siempre informan de errores?
R: PongaMSXML2.XMLHTTP
cambiar (algo) por (otra cosa)WinHttp.WinHttpRequest.5.1
Prueba el objeto.
¿Por qué ipipgo?
Probamos 7 proveedores al principio y finalmente nos quedamos con ipipgo por tres razones:
1. IPs residenciales reales con tirones de camuflaje total
2. Apoyo exclusivoSustitución automática de User-Agent
3. Responder a los problemas técnicos en menos de 10 minutos.
La semana pasada pusieron un nuevoPosicionamiento en la ciudadFuncionalidad, excelente cuando se recogen datos localizados
Para ser sincero, participar en la captura automatizada es como librar una guerra de guerrillas. La última vez que utilicé la estrategia de rotación de ipipgo, me salté con éxito el bloqueo municipal de IP de cierto Este. Recuerda los puntos clave:Proxy de calidad + Retraso aleatorio + Gestión de excepciones, estos tres ejes bajan, el sitio 90% se puede arreglar.