
En primer lugar, ¿por qué es tan difícil obtener datos de contratación efectivos?
El mayor quebradero de cabeza de captar las ofertas de empleo de Indeed es laIP bloqueadaNo estoy seguro de si usted es un fan de este sitio. Este sitio web es como un dios de la puerta, la captura de la misma IP salvajemente rascarse para darle una lista negra. El mes pasado, mis colegas no creen en el mal, con sus propios ordenadores, incluso subió 3 horas, los resultados de toda la red de la oficina no puede iniciar sesión De hecho, el jefe casi rompió su monitor ...
He aquí una comparación con datos reales:
| Método de adquisición | Tiempo medio de supervivencia | porcentaje de éxito |
|---|---|---|
| racha (correr desnudo) | 15 minutos. | 23% |
| Grupo general de apoderados | 2 horas | 67% |
| ipipgo ip dinámico | 8 horas + | 91% |
(Nota: el entorno de prueba para la recogida diaria de 50.000 volúmenes de datos)
En segundo lugar, ¿cómo elegir la IP proxy para no pisar la fosa?
Proxy IP en el mercado es como la línea de datos de envío Taobao 9.9, mira el uso barato hasta la muerte. Selección de un proxy tiene que reconocer tres indicadores duros:
1. Número suficiente de IP: ¡Con un pool de 10 millones de IPs como ipipgo, el sitio ni siquiera lo reconocerá con un chaleco nuevo para cada solicitud!
2. La velocidad de conmutación es suficientemente rápida: Es mejor cambiar la dirección IP automáticamente en milisegundos, en lugar de esperar medio minuto a que se cambie toda la dirección IP.
3. precisión geográficaPor ejemplo, si quiere capturar un puesto estadounidense y se le asigna una IP india, quedará expuesto inmediatamente.
He utilizado un cierto agente antes, la IP es bastante, pero una vez que la información de trabajo se mezcla con el bengalí, entonces me enteré de que su posicionamiento IP no es exacta en absoluto. Después de cambiar a ipipgo, puedo especificar la ubicación IP a nivel de ciudad, y los trabajos localizados son muy estables.
Tercero, mano para enseñarte a montar el sistema de recogida
He aquí un ejemplo en Python que utiliza la librería requests + ipipgo para implementar la conmutación inteligente de IPs:
importar peticiones
from itertools import ciclo
Lista de proxies de ipipgo (recuerda sustituir la clave API por la tuya)
LISTA_PROXY = [
"http://user:pass@gateway.ipipgo.com:8000",
"http://user:pass@gateway.ipipgo.com:8001", ...
... Más nodos proxy
]
proxy_pool = cycle(PROXY_LIST)
def get_jobs(palabra_clave):
for _ in range(3): fail reintentar 3 veces
proxy = next(proxy_pool)
intentar.
resp = requests.get(
f "https://www.indeed.com/jobs?q={palabraclave}",
proxies={"http": proxy, "https": proxy}, timeout=10
timeout=10
)
Análisis del código de la página...
devolver datos
except Exception as e.
print(f "Fallo al rastrear con {proxy}, cambiando IPs automáticamente...")
return None
Cuidado con los dos baches:
1. frecuencia de solicitud no es demasiado difícil, se recomienda que cada solicitud de 3-5 veces en la iniciativa para cambiar de IP
2. 随机加个0.5-2秒的,装得像真人操作
IV. Preguntas frecuentes QA
Q:¿Por qué me bloquearon a pesar de usar una IP proxy?
R: 80% de ellos están usando IP pool compartidos, demasiadas personas usan el mismo segmento. ipipgo's exclusive IP pool puede evitar este problema, cada usuario tiene un segmento IP separado.
P: ¿Qué debo hacer si la respuesta de la IP proxy es lenta?
R: Elija un servicio proxy que soporte el protocolo HTTP2, como los nodos de alta gama de ipipgo con transmisión por línea dedicada, más de 3 veces más rápidos que los proxy ordinarios.
P: ¿Y si tengo que coger una posición global?
R: En el fondo de ipipgo seleccionar directamente el modo híbrido IP multinacional, asignará automáticamente la IP de exportación del país correspondiente, pro-prueba para coger el puesto de Australia con la tasa de éxito IP local se disparó.
V. Lista completa de técnicas de mantenimiento
1. Comprobación de la salud de IPPruebas automáticas de disponibilidad de IP en las primeras horas del día para eliminar los nodos defectuosos.
2. igualación del tráficoNo utilices una única IP durante mucho tiempo, establece un límite de tráfico diario para una única IP.
3. Control de excepcionesSi fallan 5 IP consecutivas, se activará inmediatamente la alarma por SMS.
4. Camuflaje UA: Con el reemplazo de IP de ipipgo, cambia aleatoriamente el User-Agent cada vez.
Por último, dijo un truco: el acceso API ipipgo al sistema de programación de rastreo, la velocidad de respuesta en tiempo real de acuerdo con cambiar automáticamente el nodo óptimo. Nuestro equipo de proyecto con este conjunto de soluciones, ha estado funcionando una estable 7 meses no se dio la vuelta, todos los días sacudiendo un millón de piezas de datos para jugar como.

