
El mayor quebradero de cabeza en la recogida de datos.
Hacer hermanos de recopilación de datos entender, el más temeroso de encontrarse con el sitio para darle un viaje. Por la mañana, el guión sigue funcionando bien, y por la tarde, de repente informa de errores 403, al igual que ser detenido por el guardia de seguridad en frente del centro comercial. En este momento, si usted utiliza su propia banda ancha duro justo, la luz IP está bloqueada, pesada parálisis de todo el proyecto - este tipo de cosas que he visto demasiado, hay un sistema de comparación de precios durante tres días consecutivos por una plataforma de comercio electrónico bloqueado más de 200 IP, el jefe casi roía el teclado.
Entonces es el momento de utilizarEl ensayo general de Proxy IP. Es como una película de artes marciales en el disfraz, cada vez que visita, cambiar su cara, por lo que el sistema anti-escalada del sitio no puede reconocer que usted es la misma persona. Sin embargo, los servicios de proxy en el mercado son desiguales, algunos dicen ser millones de grupos de IP, el uso real de todas las direcciones duplicadas, que la promoción de supermercado de la fecha de caducidad del yogur no es fiable.
Los tres ejes centrales de la solución empresarial
Una solución de captura automatizada realmente fiable tiene que cumplir estos tres duros criterios:
| (med.) tasa de recuperación | Tiempo efectivo de supervivencia IP de al menos 30 minutos |
| pureza | IP limpia no etiquetada por ninguna plataforma |
| Capacidad de control de movimientos | Conmutación inteligente de protocolos en función de los requisitos de la empresa |
Tomemos el caso que hicimos para una empresa financiera, necesitan recopilar datos de 20 sitios web de información en tiempo real. Con el proxy residencial dinámico de ipipgo, junto con la estrategia de conmutación inteligente, la tasa de éxito de la recopilación se extrajo con éxito de 47% a 92%. he aquí un consejo:No cambie de IP a intervalos fijosLa velocidad de respuesta del sitio web de destino debe ajustarse dinámicamente, como un viejo conductor que cambia de marcha según las condiciones de la carretera.
Le enseñará a construir un sistema de recogida a mano
Aquí tienes un ejemplo real de uso de Python, utilizando el framework Scrapy combinado con la API ipipgo:
importar random
from scrapy.downloadermiddlewares.retry import RetryMiddleware
class ProxyMiddleware(object).
def process_request(self, request, spider): proxy_server = random.choice_proxy(ip_list).
proxy_server = random.choice(ipipgo.get_proxy_list())
request.meta['proxy'] = f "http://{proxy_server['ip']}:{proxy_server['port']}"
request.headers['X-Proxy-Secret'] = ipipgo.get_auth_token()
def process_exception(self, request, exception, spider).
return RetryMiddleware().process_exception(request, exception, spider)
Tenga cuidado de ajustar elCabeceras de solicitud diferenciadasNo hagas que todas las solicitudes lleven el mismo User-Agent, igual que no puedes ir a una fiesta de disfraces y que todo el mundo lleve la misma máscara de zorro.
Guía práctica para evitar el pozo
Recientemente se encontró con un caso típico: un comercio electrónico transfronterizo clientes recopilar datos del producto, obviamente, utiliza el proxy IP sigue siendo reconocido. Más tarde, se encontró que había un problema con el procesamiento de cookies - aunque se cambió la IP, la cookie todavía llevaba la información anterior, al igual que el cambio de ropa sin cambiar el olor del perfume.
La solución es sencilla: añade estas dos líneas al archivo settings.py de scrapy
COOKIES_ENABLED = Falso
DEMORA_DESCARGA = random.uniform(1,3)
Combinado con elProxy de mantenimiento de sesiónla solución perfecta al problema de la fuga de identidades. Es como dar a cada rastreador un permiso de trabajo temporal, quemarlo cuando hayas terminado.
Botiquín de primeros auxilios QA
P: ¿Por qué sigue bloqueado después de usar un proxy?
R: Compruebe tres puntos: 1. si la frecuencia de las solicitudes es demasiado alta 2. si el proxy es transparente (debe utilizar un proxy con un alto nivel de almacenamiento) 3. si las huellas TLS se han aleatorizado
P: ¿Qué tiene de especial ipipgo?
R: Su casaconjunto de protocolos híbridosDe hecho, hay dos cepillos, puede identificar automáticamente el tipo de sitio de destino, en el HTTP/Socks5 conmutación inteligente entre. La semana pasada para ayudar a los clientes de acoplamiento plataforma de viajes, con el proxy regular no puede recoger datos, corte a su línea socks5 inmediatamente ver el efecto.
P: ¿Qué paquete es el más importante que deben comprar las empresas?
R: Si se trata de un proyecto a largo plazo, vaya directamente aGrupo exclusivo de IP personalizadoUn cliente que hace seguimiento de la opinión pública ha comprado 500 IPs fijas para programar por sí mismo. Hay un cliente que hace seguimiento de la opinión pública y ha comprado 500 IPs fijas para programar por sí mismo, junto con la función de enrutamiento inteligente de ipipgo, y no ha habido ningún bloqueo a gran escala durante medio año consecutivo.
Al fin y al cabo, el proxy IP no es la panacea, pero al igual que un buen wok para saltear, es crucial paraElija la herramienta adecuada para el trabajo.He utilizado siete u ocho proveedores de servicios proxy. Utilizado siete u ocho proveedores de servicios de proxy, ipipgo en la estabilidad y el apoyo técnico realmente puede vencer, especialmente sus ingenieros pueden ayudar a afinar la estrategia de recolección, este punto una gran cantidad de grandes fabricantes no pueden hacer.

