
I. ¿Por qué tirar la cabecera de la petición curl?
Una gran cantidad de socios en el uso de curl para hacer la captura de datos, a menudo se encontró con el sitio devuelve un error 403. Esta cosa es tan frustrante como ir al supermercado a comprar algo fue detenido en la puerta -.El servidor no cree que seas real.. Hoy en día, los sitios web están equipados con sistemas de compuerta inteligentes que comprueban si el encabezado de la solicitud es lo que un navegador accedería normalmente.
Por ejemplo, si accede a un sitio web con el comando curl, el User-Agent por defecto es el siguiente:
curl/7.68.0
¡Le está diciendo al servidor que eres un robot! Tenemos que darleMaquíllate.haciéndose pasar por un navegador Chrome o Firefox propiamente dicho.
En segundo lugar, la mano para enseñarle cosmética curl solicitud encabezado
En primer lugar, anote en un pequeño cuaderno algunos parámetros de cabecera de solicitud de uso común:
| encabezado de la solicitud | Ejemplo de navegador serio |
|---|---|
| Usuario-Agente | Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36... |
| Acepte | text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8 |
| Accept-Language | zh-CN,zh;q=0.9,en;q=0.8 |
El comando tiene el siguiente aspecto (Centrarse en los parámetros -H):
curl -H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64)..."
-H "Accept-Language: zh-CN,zh;q=0.9"
https://目标网站.com
Tercero, con el agente ipipgo mejores resultados
A veces no basta con cambiar el encabezado de la solicitud, algunos sitios guardan rencor -El mismo acceso IP demasiadas veces todavía bloqueadoLa mejor manera de hacerlo es sacar nuestro servicio proxy ipipgo asesino. Este es el momento de sacar nuestro asesino ipipgo servicio de proxy.
Añade un parámetro -proxy al comando y ya está:
curl --proxy http://username:password@gateway.ipipgo.com:9020
-H "User-Agent: navegador propio UA"
https://目标网站.com
ipipgo'sAgentes Residenciales DinámicosEspecialmente bueno, cada solicitud cambia automáticamente IP, jugar al escondite con el sitio. También tienen un mecanismo especial anti-escalada para la optimización del canal, probó un cierto este y un cierto tesoro no se disparará la verificación.
IV. Directrices para el rescate en situaciones de vuelco habituales
GC 1: ¿Por qué sigue devolviendo 403 a pesar de que la cabecera de la solicitud está activada?
→ Comprueba que no falta Accept-Encoding, algunos sitios comprobarán este parámetro. Prueba a añadir -H "Accept-Encoding: gzip, deflate, br".
GC 2: ¿Y si el agente no puede conectarse?
→ Primero, use curl -proxy para acceder a la interfaz de detección de IP de ipipgo, y vea si la IP de exportación devuelta es correcta. Si se agota el tiempo de espera, puede que esté bloqueado, prueba con otro puerto.
GC 3: ¿Y si quiero seguir conectado?
→ Recuerda llevar también la cabecera Cookie con -H "Cookie: tus credenciales de inicio de sesión". Se recomienda copiar la cookie fuera con las herramientas de desarrollador después de iniciar sesión en el navegador primero
V. Consejos esenciales para jugadores veteranos
Cuando se encuentre con un sitio particularmente difícil, puede ofrecer un gran golpe - elCabecera de solicitud de aleatorizaciónEl siguiente es un ejemplo de cómo hacerlo. Escriba un script de shell para combinar aleatoriamente los parámetros de UA e idioma de diferentes navegadores cada vez, con la función de cambio automático de IP de ipipgo, para realizar perfectamente el acceso sigiloso.
He aquí un ejemplo de una versión sencilla del script:
¡! /bin/bash
UA_LIST=("Mozilla/5.0 (Windows)...") "Mozilla/5.0 (Macintosh)...")
RANDOM_UA=${UA_LIST[$RANDOM % ${UA_LIST[@]}]}
curl --proxy http://ipipgo代理地址
-H "User-Agent: $RANDOM_UA"
-H "Accept-Language: zh-CN,en;q=0.$(($RANDOM%3+5))"
https://目标网站.com
Como nota final, recuerda seguir los términos de servicio del sitio cuando utilices un proxy. ¡ipipgo cumple con todos sus nodos!Limpiar IP PoolAdemás, los nuevos usuarios reciben una dosis de prueba, por lo que recomendamos probarlo antes de comprarlo.

