
I. ¿Por qué tu colección de Glassdoor está siempre bloqueada?
El viejo hierro dedicado a la recopilación de datos debe haber encontrado esta situación: acaba de agarrar unos pocos cientos de datos, la dirección IP fue sacado por Glassdoor negro. Es como cuando vas al supermercado a probar comida y coges el mismo mostrador, si los guardias de seguridad no te vigilan, ¿quién lo hará?
El mecanismo anti-rastreo de Glassdoor es más inteligente de lo que uno podría pensar, y se fijan en tres métricas principales:Frecuencia de acceso, atribución de IP, huella digital del dispositivo. La página de reseñas de empresas, en particular, es extremadamente sensible a las visitas sucesivas desde la misma IP. He visto a un hermano hardcore con su propia banda ancha, y como resultado, ni siquiera podía iniciar sesión en Glassdoor en su WiFi de la empresa al día siguiente.
En segundo lugar, la postura correcta de cambiar de IP
El cambio de IP que se menciona aquí no es para que reinicies tu gato de fibra óptica (aunque a veces funciona), sino para que utilices la funciónAgentes Residenciales DinámicosLo primero que hay que hacer es utilizar un proveedor de servicios como ipipgo. Como castaña, los proveedores de servicios como ipipgo tienen millones de direcciones de banda ancha domésticas reales de todo el mundo almacenadas en sus pools de IP, que se cambian aleatoriamente para cada solicitud, de modo que el sitio no puede saber si es una persona real la que está visitando o una máquina operando.
importar peticiones
from itertools import ciclo
El formato proxy proporcionado por ipipgo
lista_proxy = [
'http://user:pass@gateway.ipipgo.com:8000',
'http://user:pass@gateway.ipipgo.com:8001', ...
... Más nodos proxy
]
proxy_pool = ciclo(lista_proxy)
para página en rango(1, 100): proxy = siguiente(proxy_pool)
proxy = siguiente(proxy_pool)
try: response = requests.get()
respuesta = requests.get(
f'https://www.glassdoor.com/Reviews/page_{page}',
proxies={'http': proxy, 'https': proxy},
timeout=10
)
Análisis de datos...
except Exception as e.
print(f'Plantado con {proxy}: {str(e)}')
III. programa ipipgo de configuración del mundo real
Hay muchos proveedores de servicios proxy en el mercado, pero hay que fijarse en indicadores duros para hacer la recopilación de datos. Recomiendo ipipgo principalmente por tres puntos:
| término de comparación | Agente general | ipipgo |
|---|---|---|
| Tipo IP | Sala de servidores IP | Banda ancha doméstica real |
| porcentaje de éxito | ≤60% | ≥95% |
| Soporte de concurrencia | un solo hilo | concurrencia multicanal |
Aquí está el truco.Configuración del encabezado de la solicitudSe recomienda cambiar aleatoriamente la huella digital del navegador cada 5 conmutaciones de IP. He aquí un pequeño truco: simplemente tome la UA real de un navegador disponible comercialmente y utilícela.
Cuarto, la guía blanca para evitar el pozo
Tres errores fatales que suelen cometer los novatos:
- 把设置太低(建议3-8秒随机间隔)
- Olvídese de manejar el renderizado de JavaScript (recuerde desactivar las propiedades de WebDriver con Selenium)
- Reutilización de cookies de sesión (las cookies deben borrarse cada vez que se cambia de IP)
La última vez, un cliente no pudo rastrear los datos, y más tarde se encontró que abrió el complemento del navegador, cada solicitud con una información de autenticación de cuenta de Google, que no es lo mismo que la celebración de la tarjeta de identificación para rastrear los datos que ...
V. Botiquín práctico de garantía de calidad
P: ¿Qué debo hacer si encuentro un CAPTCHA?
R: Detener inmediatamente la petición de la IP actual, y reducir la velocidad de recogida después de cambiar a una nueva IP. ipipgo'sEnrutamiento inteligenteLa función puede filtrar automáticamente los segmentos IP de alto riesgo
P: ¿Necesita recopilar datos de distintos países?
R: Añada el parámetro de región a la solicitud de proxy, como con ipipgo'sgateway.ipipgo.com?country=usPodrás obtener una IP residencial estadounidense
P: ¿Cuánto volumen de IP se necesita al día?
R: Estimado por valor empírico: volumen de datos objetivo ÷ (límite diario por IP). Suponiendo 100.000 entradas a capturar, Glassdoor tiene un límite diario de 300 entradas por IP, se recomienda preparar 400 IPs de calidad (dejando 20% de margen)
VI. Consejos de mantenimiento a largo plazo
No creas que puedes dormirte en los laureles después de la configuración, se recomienda hacer estas cosas semanalmente:
- Compruebe la disponibilidad de IP (ipipgo tiene monitorización en tiempo real en segundo plano)
- Actualización de las reglas de posicionamiento XPath (las renovaciones de sitios son habituales)
- Borrar la caché DNS local (que levante la mano quien se haya encontrado con contaminación en la resolución de nombres de dominio).
Un último dato: Glassdoor es mucho más tolerante con las IPs móviles. Con el pool de proxies móviles 4G/5G de ipipgo, la tasa de éxito en la recogida puede subir otro 15% más o menos. Pero recuerda controlar el ritmo de la petición, no leas la buena escritura a la mala.

