
¿Por qué siempre me bloquean para recopilar datos de LinkedIn?
Recientemente, muchos amigos que se dedican al comercio exterior se quejaron conmigo de que el rastreador a menudo activa el control de viento al agarrar perfiles de clientes de LinkedIn. El mes pasado, un amigo cambió tres cuentas seguidas, los resultados fueron todos marcados como anormales por el sistema. Esta cosa es, para decirlo sin rodeosLa dirección IP revela el comportamiento de la máquina-como visitas muy frecuentes desde la misma IP, inicios de sesión transfronterizos y patrones de solicitud demasiado obvios.
Tomemos un caso real: una empresa de comercio electrónico transfronterizo utiliza un servidor estadounidense para conectarse directamente y obtiene 500 datos al día. Todo fue bien los tres primeros días, pero al cuarto recibieron un correo electrónico de advertencia de LinkedIn. Más tarde cambiaron aAgentes Residenciales DinámicosEl ciclo de supervivencia se amplía directamente a más de 2 semanas repartiendo las peticiones a IP de usuarios reales en distintas regiones.
Proxy IP cómo ayudarle a "sigilo" operación
He aquí un concepto erróneo que hay que corregir:No vale cualquier agente.Lo primero que tienes que hacer es utilizar un proxy residencial para disfrazar la visita de una persona real. He visto a algunas personas toman centro de datos IP duro sólo, el resultado es de media hora para ser bloqueado.mecanismo de control de viento de LinkedIn identificará especialmente el segmento IP de la sala de servidores, esta vez usted tiene que utilizar un proxy residencial para disfrazar como una persona real para visitar.
Recomendado para ipipgoAgentes Residenciales DinámicosEl paquete, a 7,67 $/GB, se considera muy asequible en el sector. Su grupo de IP cubre más de 200 países, lo que resulta especialmente adecuado para la recopilación transfronteriza de datos. Por ejemplo: si quieres captar información sobre una empresa alemana, puedes especificar una IP residencial en la zona de Fráncfort y sustituir automáticamente la dirección de exportación en cada solicitud.
solicitudes de importación
proxies = {
'http': 'http://user:password@gateway.ipipgo.com:9020',
https: http://user:password@gateway.ipipgo.com:9020
}
response = requests.get('https://www.linkedin.com/company/xxx', proxies=proxies)
Práctico juego de tres piezas antibloqueo
Esta combinación se recomienda en función de los escenarios que hemos probado:
1. Estrategia de rotación de los PI
No sea estúpido y use una IP fija, configure la IP para que cambie cada 5-10 peticiones. La API de ipipgo soporta el cambio automático por número de veces, recuerde añadir retardos aleatorios (0.5-3 segundos) en el código.
2. Simulación de huella digital del navegador
No basta con cambiar la IP, hay que cambiar la configuración de User-Agent, zona horaria e idioma. Recomendamos usar una herramienta como undetected-chromedriver.
3. Antropomorfismo de los patrones de comportamiento
No capture todo el punto puntualmente, establezca el intervalo de operación aleatorio. Capture más durante el día de lunes a viernes y reduzca las solicitudes adecuadamente los fines de semana.
Preguntas frecuentes
P: ¿Puedo recuperar datos después de haber sido bloqueado?
R: Desactive inmediatamente la IP actual, cambie a una nueva cuenta + inicio de sesión de IP residencial estática. ¡El paquete residencial estático de ipipgo es de $35/mes, adecuado para hacer mantenimiento de cuenta!
P: ¿Cómo elijo un paquete para la recogida de datos a nivel empresarial?
R: el volumen medio diario de solicitudes de 100.000 recomienda la selección de la versión dinámica de la empresa residencial, $ 9,47 / GB de apoyo para un mayor número de solicitudes simultáneas, viene con una solicitud falló a la función de reintento automático
P: ¿Cómo rompo el CAPTCHA cuando me lo encuentro?
R: ¡No te resistas! Cambia inmediatamente de IP y reduce la frecuencia de recogida. Puedes trabajar con plataformas de codificación, pero el coste se disparará, así que es mejor controlar el ritmo de solicitudes
Estos detalles marcan la diferencia.
Recientemente, al ayudar a clientes a depurar, encontré un detalle: mucha gente ignora elGestión de cookies. Se recomienda borrar las cookies locales cada vez que cambie de IP para evitar el historial de correlación.
También hay una operación de coqueteo - con ipipgo'sAgente de línea TKHacer el canal de copia de seguridad. Cuando la IP del canal principal está restringido, cambia automáticamente la piscina IP dedicada, que se mide para reducir la probabilidad de bloqueo 30%.
Un último recordatorio: ¡no seas ávido de más y más rápido! Controle el volumen diario de cobros dentro de la tolerancia de la plataforma. Hemos probado un umbral seguro de no más de 200 solicitudes al día para cuentas nuevas, y las cuentas más antiguas pueden relajarse adecuadamente hasta 500.

