
A. ¿Por qué se bloquea siempre tu rastreador? Pruebe este método de suciedad
dedica a rastrear amigos se han encontrado con esta mala cosa: acaba de ejecutar un buen programa de repente se detuvo, un vistazo a la pantalla de registro lleno de errores 403. En este momento no se apresure a romper el teclado, el ochenta por ciento de su IP es el sitio de destino de la pequeña casa negro. Ahora el sitio están muy bien, un poco de tráfico anormal encontrado en el sello IP, que el código de salud de verificación de seguridad de la comunidad también es estricta.
Es hora de llamar a nuestro salvador...IP proxyLo primero que hay que hacer es poner una "máscara" al crawler. En pocas palabras, se trata de dar el rastreador de llevar una "máscara", cada visita a una dirección IP diferente. Como si vas al supermercado a coger un número limitado de productos, cada vez que te cambias de ropa para hacer cola, el cajero no puede ser reconocido como la misma persona.
solicitudes de importación
Ejemplo de acceso proxy para ipipgo (recuerde cambiar a su propia cuenta)
proxies = {
'http': 'http://用户名:密码@gateway.ipipgo.com:9020',
'https': 'http://用户名:密码@gateway.ipipgo.com:9020'
}
response = requests.get('URL de destino', proxies=proxies, timeout=10)
En segundo lugar, las tres principales pasarelas para elegir proxy IP
Hay muchos proveedores de servicios proxy en el mercado, pero no muchos de ellos son realmente fiables. Recuerda estos tres consejos de selección:
| norma | línea o puntuación de aprobado (en un examen) | datos ipipgo |
|---|---|---|
| capacidad de respuesta | <2 segundos | 0,8-1,5 segundos |
| tasa de disponibilidad | >95% | 99.3% |
| Tamaño del grupo IP | >1 millón | Más de 3,2 millones |
Recordatorio especial: no se limite a mirar el precio barato, algunos agentes de la IP son cafés Internet fuera de la IP de segunda mano, el uso que Internet de acceso telefónico es aún más lento. Proveedores de servicios profesionales como ipipgo, sus IPs son todos.sala de ordenadores gestionada directamente por la sala de servidores+banda ancha domésticaAgrupación de recursos híbrida para perfiles de velocidad y de usuario real.
En tercer lugar, la mano para enseñar a configurar el agente de rastreo
Aquí al marco de Scrapy de Python como un ejemplo, decir una configuración práctica habilidades. ¡Muchos novatos directamente escribirá un proxy muerto en settings.py, que es mucho tiempo anticuado! Tienes que usar middleware para cambiar IPs dinámicamente.
clase IpipgoProxyMiddleware.
def process_request(self, request, spider).
request.meta['proxy'] = 'http://用户名:密码@gateway.ipipgo.com:9020'
Se recomienda activar la función de auto-refresco de IP (configurable en el backend de ipipgo)
request.meta['dont_retry'] = True
Ten cuidado de añadir el código anterior al middlewares.py de tu proyecto e ir a ajustes para activar este middleware. Si está utilizando ipipgo, se recomienda activar suEnrutamiento inteligenteel sistema seleccionará automáticamente el nodo más rápido, lo que es mucho menos molesto que sondear las IPs tú mismo.
En cuarto lugar, las competencias privadas del ingeniero superior
Nombra algunas lecciones del mundo real que tus compañeros no te cuenten:
1. No utilices intervalos fijos.: Las operaciones manuales tienen pausas aleatorias, se recomienda hibernar aleatoriamente entre 0,5 y 3 segundos.
2. Huellas falsas del navegador: User-Agent debe coincidir con el conjunto completo, no cambie sólo el UA sin otras cabeceras.
3. El no reintento debe ser restringido: Si fallas 3 veces con la misma IP, deberías cambiarla, sólo te expondrás.
4. Aproveche los paquetes proxy: como ipipgo'spaquete cuantitativoIdeal para ráfagas de corta duración.suscripción mensualAdecuado para el seguimiento a largo plazo
V. Botiquín de primeros auxilios QA
P: ¿Qué debo hacer si la IP proxy no funciona después de utilizarla?
R: Fenómeno normal, se recomienda configurar la frecuencia de reemplazo automático. ipipgo background puede configurarse cada 5-30 minutos para cambiar automáticamente un lote de IP, se recomienda abrir esta función.
P: ¿Cómo puedo saber si un agente es muy anónimo?
R: Visite http://httpbin.org/ip, si la IP devuelta es la misma que la IP de su proxy y no hay encabezado X-Forwarded-For, es un proxy high stash. Todos los proxies de ipipgo están en modo high stash por defecto.
P: ¿Qué debo hacer si me encuentro con un sitio web en el que tengo que iniciar sesión?
R: Este es el momento desuspensión de la sesiónEl paquete IP Dedicada de ipipgo soporta esta característica, ¡nunca use una IP compartida para procesar logins!
VI. ¿Por qué recomienda ipipgo?
Después de usar muchos servicios proxy, finalmente he bloqueado ipipgo por tres razones principales:
1. Se han especializadoRuta de optimización del rastreadorEl grupo de IP está completamente aislado de los usuarios normales.
2. ApoyoAsignar IP por sitio de destinoPor ejemplo, un segmento IP dedicado a un determinado este y un determinado tesoro.
3. ExclusivoDetección de salud IPFiltrado automático de IP bloqueadas
4. La respuesta del servicio de atención al cliente es rápida, la última vez que tuve un problema en mitad de la noche había realmente un soporte técnico humano.
Recientemente han tenido una prueba gratuita para nuevos usuarios, inscribirse y obtener 1G de tráfico. Se recomienda tomar primero este efecto de prueba, después de todo, no es adecuado para tener que utilizar para saber. De todos modos, mi equipo es ahora más de una docena de proyectos de rastreo todos cortados a ipipgo, el proyecto más largo corrió durante medio año no ha volcado el coche.

