
Cuidado con el comodín de recopilación de información empresarial de LinkedIn con IP proxy
Recientemente, muchos amigos que hacen el comercio exterior preguntó, ¿cómo no bloquear el número también puede recoger por lotes de información de negocios de LinkedIn. Este asunto es francamente cuatro palabras:La IP proxy debería ser lo suficientemente duraLo primero que haremos es tomar nuestro propio servicio ipipgo y mostrarte como jugar este combo. Vamos a tomar el ejemplo de nuestro propio servicio ipipgo y le mostrará cómo jugar este combo.
¿Por qué me bloquearán si no uso una IP proxy?
LinkedIn control del viento no es vegetariana, la misma solicitud de alta frecuencia IP inmediatamente tarjeta roja fuera del campo. El año pasado, hay un hacer lámparas y linternas de exportación amigos no creen en el mal, con su propia red de oficinas, incluso barrer 200 página de inicio de la empresa, los resultados de la cuenta directamente ser prohibido permanentemente. Más tarde cambió ipipgo IP residencial dinámico, con un intervalo de solicitud al azar, ahora todos los días para coger 500 + información de la empresa estable no entregar el coche.
importar peticiones
from tiempo import dormir
import random
proxies = {
http: http://用户名:密码@gateway.ipipgo.com:端口, https: http://用户名:密码@gateway.ipipgo.com:端口
https: http://用户名:密码@gateway.ipipgo.com:端口
}
cabeceras = {
User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Custom UA'
}
Ejemplo de lógica de scraping
def scrape_linkedin(url).
try: response = requests.get(url).
response = requests.get(url, proxies=proxies, headers=cabeceras, timeout=10)
Esperar aleatoriamente 3-8 segundos
sleep(random.uniform(3,8))
return respuesta.texto
except Excepción as e.
print(f "Fallo en la solicitud, cambio automático de IP: {str(e)}")
Aquí puedes acceder a la API de ipipgo para cambiar automáticamente la dirección IP.
Los tres pilares de la elección de una IP proxy
Existen numerosos proveedores de servicios proxy IP en el mercado, pero hay que conformarse con los que son adecuados para la captura de LinkedIn:
1. Simulación de comportamiento en la vida realLas IPs residenciales de ipipgo son usuarios reales en un entorno de red real, lo cual es más de un nivel más fiable que las IPs de la sala de servidores.
2. La conmutación debe ser suave como la seda: Encounter código de autenticación puede cambiar de IP en cuestión de segundos, esta característica que hemos hecho especialmente inteligente API de conmutación
3. La localización geográfica debe ser precisaPor ejemplo, si quiere captar a una empresa alemana, la propiedad intelectual debe estar localizada en Alemania.
Guía práctica para evitar el pozo
La semana pasada un cliente con nuestros servicios también se dio la vuelta, el agotamiento encontró que el encabezado de la solicitud no se maneja correctamente. Éstos son algunos fáciles de paso en la mina:
- No utilice el User-Agent por defecto de la biblioteca de peticiones, ¡se romperá en el acto!
- Lo mejor es asociar una cookie fija a cada IP y no borrar la caché con demasiada frecuencia.
- La hora de recogida debe coincidir con el horario laboral de la zona de destino, y el fantasma sabrá que se trata de un robot en plena noche.
Preguntas frecuentes QA
P: ¿Es correcto utilizar un proxy gratuito?
R: Probado el año pasado, el tiempo medio de supervivencia del agente libre es inferior a 15 minutos, 8 de cada 10 veces de recogida activó la verificación, ¡pura pérdida de tiempo!
P: ¿Y si quiero recopilar 100.000 niveles de datos?
R: Se recomienda utilizar los paquetes de nivel empresarial de ipipgo para soportar concurrencia multihilo + auto-rotación IP, la ejecución máxima medida a 8.000 datos por hora.
P: ¿Cómo rompo el CAPTCHA cuando me lo encuentro?
R: tres pasos: 1. detener inmediatamente la petición IP actual 2. llamar a la interfaz de sustitución IP de ipipgo 3. sustituir el reintento de User-Agent
¿Por qué ipipgo?
Lo hemos optimizado específicamente para escenarios de recogida de datos:
1. Sistema exclusivo de pruebas de calidad de IP, cada IP es probada por personas reales antes de ponerse en línea.
2. Fondo global de más de 50 millones de recursos IP residenciales, compatible con el posicionamiento a tres niveles país/ciudad/operador.
3. Asistencia técnica 7 × 24 horas, la última a las 3 de la madrugada para ayudar a los clientes a solucionar urgentemente el problema de ASN bloqueado
Decir un dato interno: con nuestros clientes de servicios, LinkedIn tasa de éxito de recogida de 38% directamente seco a 91%, el control de la tasa de sellado en 2% abajo. Esta línea se explica en detalle, que enlace de la calidad de IP no es transitable, toda la cadena tiene que colapsar.

