¿Qué sentido tiene rastrear robots a este precio?
Recientemente, un montón de amigos me han preguntado, en cuclillas en las ofertas especiales de Newegg es como especular con acciones, el precio cambia tan pronto como parpadeo mis ojos. El mes pasado, vi una tarjeta gráfica con un precio de 399 cuchillos, pero cuando fui a hacer una taza de café, el precio subió a 450 cuchillos.Robots que vigilan la evolución de los precios 24 horas al díadefinitivamente ahorra mucho dinero malgastado.
Todos sabemos lo fácil que es para los rastreadores normales que Newegg bloquee sus IPs, ¿verdad? El año pasado escribí un script para alguien, y al principio no tuve ningún problema en comprobar 3 veces por hora, pero al tercer día obtuve un error 403. Entonces cambié aProxy dinámico residencial para ipipgoUtilizando su función de rotación de IP, este problema queda resuelto.
Elegir una IP proxy es como comprar comestibles: hay que elegir los más frescos.
Existen multitud de proveedores de servicios de agencia en el mercado, pero los que son adecuados para el seguimiento de precios deben cumplir tres condiciones:① El tiempo de supervivencia IP es controlable ② La localización geográfica es exacta ③ La tasa de éxito de las solicitudes es suficientemente altaLo primero que debe hacer es conseguir un nuevo pool de IPs. Aquí debe ser susceptible de sistema de programación inteligente de ipipgo, su piscina IP coincidirá automáticamente con el nodo óptimo basado en el uso.
Comparación de funciones | Agente general | proxy ipipgo |
---|---|---|
Frecuencia de sustitución de PI | Fijo durante 5 minutos | Intervalo personalizado |
Emplazamiento | asignación aleatoria | Estado/ciudad designados |
Mecanismo de reintento de fallo | no tener | 3 conmutación automática |
Sistema de control práctico
Empecemos por la lógica básica:Simulación del comportamiento de navegación de personas reales + camuflaje dinámico de IP. He aquí un consejo, no utilice el enlace de la página del producto directamente, pero ir a través de la página de búsqueda capa por capa. Por ejemplo, si desea supervisar "RTX 4090″, primero debe visitar la ruta electronics→graphic-cards→NVIDIA.
La parte más crítica de la sección de código es la configuración de la cabecera de la petición, recuerde añadir los parámetros Accept-Language y Referer. Cuando se utiliza la API de ipipgo para obtener un proxy, se recomienda establecer el parámetrosession_sticky=30para que una misma sesión pueda mantener la misma IP durante 30 segundos para evitar ser reconocida como bot.
He pisado estos baches por ti.
① No se quede mirando la página de un solo producto y pase el dedo, el mecanismo anti rastreo de Newegg registrará el tiempo de permanencia en la página. Se recomienda comprobar el precio cada 5 minutos, mientras que al azar espaciados 3-8 segundos antes de iniciar una solicitud.
② Que no cunda el pánico al encontrarse con CAPTCHA, ipipgo'sAgentes High StashCombinado con el camuflaje de huellas dactilares del navegador, puede reducir la tasa de activación de CAPTCHA en más de 70%. Si realmente no puedes evitarlo, establece una pausa automática de 1 hora antes de continuar.
③ No utilizar MySQL para el almacenamiento de datos, pero recomendar InfluxDB, una base de datos de series temporales, para mostrar los datos de fluctuación de precios en un gráfico de líneas, y para establecerAlerta de media móvilque sean más fiables que las simples alertas de umbral.
Tiempo de control de calidad: lo que puede preguntar
P: ¿Con qué frecuencia se bloquean las IP?
R: la prueba real con proxy ordinaria cada hora sellar 3-5 veces, cambiar ipgo después de que el máximo diario de disparo 1 vez el código de verificación
P: ¿Cuántas IP proxy se necesitan para ser suficientes?
R: 20 IPs dinamicas son suficientes para cubrir todo el dia de monitoreo, y el paquete de ipipgo es suficiente para elegir la version basica.
P: ¿Cuánto tiempo se retrasa la alerta de fluctuación de precios?
R: Los ajustes razonables se pueden hacer dentro de los 3 minutos de notificación, la clave para abrir ipipgo función de canal de copia de seguridad
Un último rant, no tire su propio servidor proxy. Alquilé un servidor EC2 de AWS para ahorrar dinero en proxies, pero Newegg bloqueado todo mi segmento IP. Directamente en las soluciones de negocio ipipgo, ahorrar tiempo puede agarrar varias olas de bienes con descuento. Hay alguna pregunta específica bienvenida a nuestro sitio web oficial para encontrar el servicio al cliente técnico persistente, son 24 horas en línea para responder.