
A. ¿Por qué se bloquea siempre su solicitud? Puede que le falte esta capa de "coraza protectora".
Hacemos hermanos de recopilación de datos debe haber encontrado este tipo de cosas -, obviamente, escribir el código correcto, pero el sitio de destino no es dar datos. En este momento usted tiene que pensar, su solicitud no es demasiado "desnudo"? Al igual que el uso de pantalones en el verano en un restaurante de alta gama, el portero no se detiene para detener a quién?
Y aquí es donde llegamos a laenmascarado comoEsta habilidad salva vidas. Muchos sitios detectarán el encabezado de la solicitud User-Agent, Accept-Language parámetros, para determinar si usted es un robot. Además de la IP del proxy es como una solicitud de llevar un manto de invisibilidad, junto con un encabezado de solicitud bien diseñado, la tasa de éxito puede ser duplicado.
Ejemplo de enmascaramiento básico (muy fácil de detectar)
curl -H "User-Agent: Mozilla/5.0" http://example.com
Así es como debería funcionar el enmascaramiento avanzado (con IPs proxy)
curl -x http://user:pass@gateway.ipipgo.com:9020
-H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/91.0.4472.124 Safari/537.36"
-H "Accept-Language: zh-CN,zh;q=0.9,en;q=0.8"
-H "Sec-Fetch-Site: mismo-sitio"
http://target-site.com
En segundo lugar, la configuración del encabezado de la solicitud de los cuatro diamantes (con el código real)
No creas que sólo con añadir unos pocos parámetros se puede engañar, hay muchas cosas que decir aquí. Recuerde estos cuatro parámetros obligatorios, para asegurarse de que su solicitud es tan estable como un perro viejo:
1. User-Agent: Browser ID (se recomienda utilizar la última versión)
2. Accept-Encoding: compresión (no utilizar el sitio no soporta)
3. Referer: la dirección de la página anterior (ruta de acceso falsificada)
4. Cookie: credenciales de acceso (actualizadas dinámicamente para ser útiles)
En la práctica, se recomienda utilizar el Proxy Residencial Dinámico de ipipgo, su pool de IPs se actualiza diariamente en 5 millones +, con este script para asegurar que cada petición es como una persona real:
PROXY="http://user:pass@rotating.ipipgo.com:9021"
UA=$(shuf -n 1 user-agents.txt) Biblioteca UA preparada de antemano
curl -x $PROXY
-H "Usuario-Agente: $UA"
-H "Accept: text/html,application/xhtml+xml"
-H "Conexión: keep-alive"
-H "Upgrade-Insecure-Requests: 1"
http://target.com
III. Técnicas especiales de contravigilancia (desconocidas para 90%)
Algunos sitios detectaránorden de cabecera de la solicitudEste es el tipo de operación chabacana en la que es hora de jugar con el parámetro -proxy-header:
curl -x http://user:pass@gateway.ipipgo.com:9020
--proxy-header "Proxy-Authorization: Basic base64 string"
-H "Accept-Language: zh-CN"
-H "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, como Gecko) Version/14.1.1 Safari/605.1.15"
-H "X-Requested-With: XMLHttpRequest"
http://api.target.com/data
Esto es lo mejor: ¡el soporte de proxy de ipipgo!Validación dinámica de certificadosLa primera es la detección de huellas dactilares TLS. Esta es una gran cantidad de agentes libres no pueden hacer, la configuración específica para encontrar su tecnología de clave secreta en él.
IV. Directrices para la resolución de las preguntas más frecuentes
P: ¿Agregar el encabezado de solicitud y aun así ser baneado?
R: 80% es la calidad de la IP proxy no es buena, con el paquete proxy exclusivo de ipipgo, cada IP con simulación de entorno de navegador real.
P: ¿Y si tengo que utilizar CAPTCHA?
A: Añada "X-Captcha-Key: ipipgo_auto" en la cabecera de la solicitud (se trata de su función de codificación automática integrada).
P: ¿Cómo mantiene la coherencia en sus conversaciones?
R: Utilice ipipgo'sAgentes con plazos de prescripción largos+ Cookie de almacenamiento persistente, la misma IP para mantener más de 30 minutos de sesiones
V. Programa de configuración definitiva (colección recomendada)
Esta plantilla de configuración que he utilizado durante tres años no se volcó, con el agente de clase empresarial de ipipgo, la minería diaria de millones de datos estables:
¡! /bin/bash
IPPOOL=("gateway.ipipgo.com:9020" "gateway.ipipgo.com:9021" "gateway.ipipgo.com:9022"))
UA_ARRAY=($(curl -s https://cdn.ipipgo.com/ua_pool))
for i in {1..1000}; do
RANDOM_IP=${IPPOOL[$RANDOM % ${IPPOOL[@]}]}
RANDOM_UA=${UA_ARRAY[$RANDOM % ${UA_ARRAY[@]}]}
curl -x "http://user:pass@${RANDOM_IP}"
-H "User-Agent: ${RANDOM_UA}"
-H "Accept-Encoding: gzip, deflate, br"
-H "Sec-Fetch-Dest: document"
-H "Pragma: no-cache" -H "Cache-Control"
-H "Cache-Control: no-cache" -H "Pragma: no-cache" -H "Cache-Control: no-cache"
--comprimido
"http://target.com/page=$i" -o "data_$i.html"
sleep $((RANDOM%5+2)) ¡Los retardos aleatorios son importantes!
hecho
Por último, me gustaría decir que los agentes libres son todos pozos, y usted debe buscar un proveedor de servicios profesionales como ipipgo. Recientemente han realizado actividades, nuevos usuarios para enviar tráfico de 10G, suficiente para probar. ¡Código en mano, el mundo que tienes, levántate hermanos!

