
Cómo captar la dinámica corporativa de LinkedIn
Recientemente, muchos amigos que se dedican al comercio exterior se preguntan, ¿cómo podemos estar al tanto de la dinámica de las empresas de destino? Por ejemplo, el lanzamiento de nuevos productos, cambios ejecutivos en esta información clave. Confiar en la mirada manual es ciertamente poco realista, aquí para dar a todos un truco - con Python para escribir un script de recopilación automatizada. Pero hay que prestar especial atención a una trampa.Las visitas frecuentes a LinkedIn directamente desde tu propia IP pueden hacer que tu cuenta se bloquee en cuestión de minutos..
Me encontré con esto la semana pasada cuando estaba ayudando a un cliente a hacer un análisis de la competencia. Al principio, utilicé mi propio ordenador para ejecutar el script, sólo cogí 20 datos, la página saltó de repente al CAPTCHA, y al día siguiente, la cuenta directamente no podía iniciar sesión. Más tarde, cambié a una IP proxy dinámica para resolver el problema.ipipgoEl servicio de agente residencial, probado personalmente durante 8 horas de recogida continua sin problemas.
¿Por qué tengo que utilizar una IP proxy?
El mecanismo anti-crawl de LinkedIn es mucho más inteligente de lo que pensamos, y detectará tres cosas principales:
| elemento de prueba | Programa de respuesta |
| Frecuencia de solicitud | Controlar el número de solicitudes por segundo |
| Dirección IP | Agentes de cambio dinámico |
| huella dactilar del encabezado de la solicitud | Generación aleatoria de User-Agent |
Especialmente con la parte de la dirección IP, usar un proxy residencial es más fiable que un proxy de sala de servidores. Tome el servicio de ipipgo como un ejemplo, su piscina IP son usuarios reales de entorno de red real, mayor grado de camuflaje. La última prueba con la sala de IP sólo puede durar media hora, cambiar el proxy residencial después de un funcionamiento estable durante 3 días.
Ejemplo de código
Aquí hay una versión simple del código para Python, centrándose en la parte de configuración del proxy:
importar peticiones
from random import elección
Lista de proxies de ipipgo
proxies = [
"http://user:pass@gateway.ipipgo.com:8000",
"http://user:pass@gateway.ipipgo.com:8001"
]
cabeceras = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}
def get_company_updates(company_id):: { 'User-Agent': 'Mozilla/50 (Windows NT 10 0; Win64; x64 AppleWebKit/537 36' }
try: resp = requests.get(company_id).
resp = requests.get(
f "https://linkedin.com/company/{id_empresa}/posts",
proxies={'http': choice(proxies)},
cabeceras=cabeceras,
timeout=10
)
return resp.text
except Exception as e.
print("Error de rastreo:", str(e))
tenga en cuentaSeleccione aleatoriamente una IP proxy para cada solicitudEste es un detalle que marca la diferencia. He intentado acceder con la misma IP continuamente antes, y el acceso fue restringido en la 5ª vez. Hay otra ventaja de usar el pool de IPs dinámicas de ipipgo, su API soporta el reemplazo automático de IPs, lo que te ahorra tiempo y esfuerzo comparado con mantener tu propia lista de proxys.
Guía de errores comunes
P: ¿Por qué sigue bloqueado después de usar un proxy?
R: Compruebe dos lugares: 1. no es un cambio aleatorio en el encabezado de la solicitud 2. la calidad de la IP del proxy no ha terminado. ¡Algunos proxies gratuitos parece que funcionan, pero en realidad han sido durante mucho tiempo en la lista negra de LinkedIn!
P: ¿Cómo controlar adecuadamente la frecuencia de adquisición?
R: Se recomienda un intervalo de página de empresa de 30 segundos o más, con la función de cambio automático de IP de 5 segundos de ipipgo, ¡pruebe personalmente que esta configuración es la más estable!
P: ¿Qué debo hacer si encuentro un CAPTCHA?
R: Detenga inmediatamente la tarea de recogida de la IP actual, cambie a una nueva IP y reduzca la frecuencia de recogida. El soporte técnico de ipipgo puede ayudarle a configurar una política específica de cambio de IP.
¿Por qué ipipgo?
Existen multitud de proveedores de servicios de agencia en el mercado, pero realmente no hay muchos que estén optimizados específicamente para la captación en LinkedIn. Su familia tiene tres características revolucionarias:
- Más de 5 millones de IP residenciales en todo el mundo, con cobertura en 190 países
- Rotación automática de IP API, soporte de cambio por tiempo/por número de peticiones
- Programa de adquisición de configuraciones dedicado al servicio de atención al cliente (se dice que se pueden solicitar descuentos exclusivos informando de la palabra clave "LinkedIn666″).
Como recordatorio final, aunque las IP proxy solucionan la mayoría de los problemas, la implementación exacta delCumplimiento de las normas del sitio web. Se recomienda fijar la hora de recogida en las horas activas de las empresas objetivo, como las horas de trabajo de las empresas europeas y americanas, para que el comportamiento se aproxime más al funcionamiento de la gente real.

