
Un truco para enseñarte a indagar en los datos básicos de los portales de empleo
Recientemente, un cazatalentos amigo y yo verter amargo, dijo que ahora es más y más difícil de cavar la gente. Las empresas con el salario y el tratamiento de la bien escondido, compitiendo por la información de reclutamiento de la empresa es también como un enigma. De hecho, esta cosa con las herramientas adecuadas, y abrir su propio refrigerador para encontrar comida casi fácil - la clave para encontrar la llave correcta.
Tomemos como ejemplo los portales de empleo más comunes, que tienen tres ejes para evitar los rastreadores:Bloqueo de IP, restricción de la frecuencia de acceso, detección de rastros de comportamientoEs una buena idea hacer un análisis de nóminas. El año pasado había un amigo que hacía análisis de nóminas, escribió su propio script y lo ejecutó durante dos días y le bloquearon más de 20 IPs, así que estaba tan enfadado que casi destroza su teclado.
Es hora de sacar al asesino que llevamos dentro...IP proxy SOCKS5 High StashLa diferencia más importante entre esta cosa y un proxy normal es que es como llevar una capa de secreto. La mayor diferencia entre esta cosa y el proxy normal, como llevar una capa de invisibilidad de compras, el sitio sólo puede ver la información del servidor proxy, completamente incapaz de tocar el borde de su IP real. Especialmente con ipipgo recursos IP residencial, cada IP es un entorno de red doméstica real, los sitios de reclutamiento que el sistema anti-escalada simplemente no puede distinguir entre la gente real visita o funcionamiento de la máquina.
Le enseñará a construir un sistema de adquisición de datos
En primer lugar, hablemos de un caso real: una empresa de recursos humanos utilizó el agente SOCKS5 de nuestro ipipgo para capturar más de 500.000 informaciones de contratación en tres meses. Su responsable técnico dijo: "El ipipgo es más diligente que cambiarse de calcetines, pero la tasa de éxito está congelada en 95% o más".
¿Cómo funciona exactamente? Recuerda estos tres puntos:
1. la estrategia de rotación de PI debe ser lo suficientemente "ondulada
No seas tonto fijo 5 minutos para cambiar la IP, esto es fácil de ser reconocido en su lugar. Se recomienda utilizar ipipgo IP residencial dinámica, establecer un intervalo de conmutación aleatoria (que van desde 30 segundos a 5 minutos), por lo que el sistema anti-escalada del sitio no puede sentir el patrón.
2. Las solicitudes deben tener "cara".
No basta con cambiar la IP, también hay que cambiar aleatoriamente los parámetros User-Agent y Referer. Igual que cada vez que sales no sólo te cambias de ropa, sino también de aspecto, para que estés lo suficientemente seguro.
| parámetros | técnica de camuflaje |
|---|---|
| Usuario-Agente | Prepare logotipos para más de 20 versiones diferentes de navegadores |
| intervalo de acceso | Establecer un retardo aleatorio de 0,5-3 segundos |
| Haga clic en la ruta | Imita los hábitos de navegación de la gente real (mira la página del anuncio antes de entrar en detalles) |
3. "Hacerse el muerto" en el tratamiento de excepciones
Cuando te encuentres con un CAPTCHA, no seas duro, suspende inmediatamente la tarea de la IP actual. La API de ipipgo soporta la desconexión automática de la IP anormal, y espera durante un periodo de tiempo y luego mata silenciosamente a un back.
Tres duros consejos para el análisis salarial
No sirve de nada tener datos que no puedes utilizar, así que te enseñaré algunos trucos del oficio:
① Niveles salariales de los puestos de trabajoEl mismo puesto para tomar la mediana, en comparación con diferentes empresas para abrir la brecha de precios. Por ejemplo, una fábrica grande JAVA desarrollo post a 35k, la competencia sólo puede atreverse a abrir a 28k, que es la humedad es la oportunidad de cazatalentos.
② Beneficios ocultos MineríaLas palabras clave "bonificación de fin de año" y "opciones sobre acciones" aparecen con frecuencia, y los verdaderos beneficios de muchas empresas se esconden en estas palabras y frases.
③ Control del ritmo de contratación: Es probable que un aumento repentino de la contratación para un puesto concreto se corresponda con una expansión de la línea de negocio. El año pasado, un cliente se basó en esto para desenterrar con antelación la noticia de la disolución del equipo de piloto automático de una gran fábrica.
Preguntas frecuentes QA
P: ¿Es legal recopilar datos con una IP proxy?
R: Mientras no rompa la autoridad de acceso normal de la página web, no hay ningún problema para recopilar información pública. ipipgo todas las IP proceden de canales conformes, igual que cuando se utilizan diferentes teléfonos móviles para rozar la página web de la misma naturaleza.
P: ¿Cómo elegir entre IP dinámica e IP estática?
R: recolección de alta frecuencia con IP residencial dinámica (ipipgo soporta rotación automática), monitoreo a largo plazo de páginas específicas con IP residencial estática. no trate de usar IP barata de centro de datos, los sitios de trabajo ahora están mirando este tipo de sello IP.
P: ¿Qué debo hacer si encuentro un CAPTCHA?
R: tres pasos: ① cambiar inmediatamente a una nueva IP ② reducir la frecuencia de recolección ③ utilizar la función de aleatorización de intervalo de solicitud de ipipgo. Realmente no se puede conseguir alrededor y luego considerar la codificación de la plataforma, pero el costo se disparará.
Al final, la recogida de datos es el juego del gato y el ratón. El año pasado, un cliente abrió 30 procesos de rastreo al mismo tiempo, con los recursos de nodo global de ipipgo para jugar a la "guerra de guerrillas", duro a un sitio de trabajo de actualización de trabajo de monitoreo a nivel de tiempo real. Recuerde, proxy IP no es la clave de todo, pero elegir el proveedor de servicios adecuado (como nuestro ipipgo), al menos puede dejar que su rastreador menos 80% desvío.

