
En primer lugar, ¿dónde está exactamente atascada la captura de datos de contratación?
Recientemente, un montón de amigos que hacen sistema de recursos humanos se quejó a mí, diciendo que el rastreador para capturar información de trabajo de hecho es siempre la prohibición. un amigo es aún peor, durante tres días seguidos, el segmento IP de la empresa ha sido apagado, y ahora toda la oficina de hecho tienen que utilizar el tráfico de telefonía móvil. De hecho, este asunto es francamente el sitio mecanismo anti-escalada en el extraño, sobre todo como de hecho una plataforma tan grande, la frecuencia de las visitas y las características IP de la sensible muy sensible.
Sólo hay tres baches en los que suele meterse el promotor medio:
1. Visitas de alta frecuencia de un solo IP (20 capturas en 10 segundos)
2. El encabezado de la solicitud es demasiado distintivo
3. El estado de inicio de sesión no se actualiza durante demasiado tiempo
Ejemplos típicos de código
importar peticiones
for page in range(1,100): response = requests.get(f"{página10}")
response = requests.get(f "https://indeed.com/jobs?q=developer&start={page10}")
Si no añades delay o cambias de IP, espera a ser bloqueado...
En segundo lugar, ¿cómo se convirtió la IP proxy en un salvavidas?
Hablando claro, es encontrar un "doble" que envíe un pedido por ti. Es como hacer cola para comprar té con leche, y cada vez que llegues a la ventanilla, serás sustituido, y el empleado no te reconocerá en absoluto. Pero aquí hay una puerta - la calidad de la IP proxy en el mercado varía, utilice el mal en lugar de morir más rápido.
| Agente general | Agentes High Stash |
|---|---|
| Expondrá la IP real | Ocultar completamente los perfiles de usuario |
| tiempo de respuesta lento | Retraso medio <200ms |
| poco tiempo de supervivencia | Sustitución automática dinámica |
Voy a tener que soplar este fuera del agua.Proxy dinámico residencial para ipipgoLa última vez que probé su servicio, pillé Indeed durante 8 horas sin que se activara un baneo. El secreto está en el cambio automático de números ASN para cada solicitud, lo que hace pensar al sitio web que se trata de un usuario real que navega en una región diferente.
En tercer lugar, la mano para enseñar a que coincida con el programa de recogida de agente
En Python, por ejemplo, la clave no es lo complejo que sea el código, sino que la configuración del proxy esté en su sitio. Recuerda los tres puntos clave:
1. Cambio de dirección IP para cada solicitud
2. Aleatorización de los usuarios-agentes
3. Establecer intervalos de solicitud razonables
importar aleatorio
import tiempo
from itertools import ciclo
El formato de los proxies proporcionados por ipipgo
proxies_pool = [
'http://用户:密码@gateway.ipipgo.com:8001',
'http://用户:密码@gateway.ipipgo.com:8002', ...
... Preparar al menos 20 portales
]
proxy_cycle = cycle(proxies_pool)
lista_cabeceras = [
{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36'},
{'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 12_4)'}, ...
... Preparar 10 conjuntos de cabeceras de navegador diferentes
]
for page in range(1, 51): proxy = next(proxy_cycle).
proxy = siguiente(ciclo_proxy)
cabeceras = random.choice(lista_cabeceras)
cabeceras = random.choice(lista_cabeceras)
response = requests.get(
url=f "https://indeed.com/jobs?q=developer&start={page10}", proxies={"http": proxy, "https": proxy}
proxies={"http": proxy, "https": proxy},
headers=cabeceras,
timeout=10
)
time.sleep(random.uniform(1.5, 3.5)) ¡Los retardos aleatorios son importantes!
except Exception as e.
print(f "Error capturando página {page}: {str(e)}")
IV. Escollos comunes Garantía de calidad
P: ¿Se agota el tiempo de espera de la IP proxy cuando la utilizo?
R: El 80% está usando un proxy de centro de datos, tienes que cambiar a una IP residencial. ipipgo es la recomendada.Paquete dinámico para agentes residencialesTienen un mecanismo de sustitución automática de IP, por lo que no tienes que mantener manualmente el grupo de IP en absoluto.
Q:¿Por qué sigue bloqueado el código aunque se haya cambiado la IP?
R: Compruebe tres lugares:
1. ¿Hay algún cambio aleatorio de Accept-Language en la cabecera de la petición?
2. Las cookies no están limpias
3. Si las huellas dactilares TLS son aleatorias o no
P: ¿Cuánto volumen de IP se necesita al día para que sea suficiente?
R: De acuerdo con nuestros datos medidos, pilla Efectivamente entonces:
- ≤ 120 solicitudes por hora → 50 rotaciones IP necesarias
- Dura 8 horas al día → ¡Recomendamos comprar el paquete 500 IP de ipipgo!
V. Decir la gran verdad
Proxy IP esta cosa, barato realmente no se puede utilizar. He comprado una suscripción mensual de 9,9 antes, y la tasa de duplicación de IP fue tan alta como 80%, así que mejor no lo uso. Más tarde, me cambié al proxy pool exclusivo de ipipgo, aunque el precio es más caro, pero es estable. Especialmente elSistema de vigilancia de la supervivencia IPEl hecho de que expulse automáticamente los nodos caducados es una verdadera gracia salvadora.
Por último, para recordar a los novatos: ¡no escriba una IP de proxy muerto en el código! Los buenos proveedores de servicios deben proporcionar APIs para obtener dinámicamente la última dirección de proxy, como el SDK de cliente de ipipgo se integra directamente con una buena sustitución automática de la lógica, mucho más fuerte que su propio plegado a ciegas.

