
¿Qué hacer cuando un crawler se encuentra con un anti-crawler? Prueba con esto.
Los viejos del hierro hacen recopilación de datos, nueve de cada diez veces se han encontrado con 403 Forbidden, ¿verdad? Hoy en día, los sitios web son tan inteligentes que bloquearán tu IP si no les gustas.IP proxy + encabezado personalizadoEs el socio de oro. Por ejemplo, con el servicio proxy de ipipgo, cada solicitud de una nueva "armadura", el sitio no puede saber si se trata de una persona o una máquina.
Manos a la obra para enseñarte a jugar al pase rizado Header
Vayamos primero a la realidad, directamente al código:
curl -x http://user:pass@proxy.ipipgo.cn:8080
-H "User-Agent: Mozilla/5.0 (Windows NT 10.0)"
-H "X-Requested-With: XMLHttpRequest"
https://target-site.com/api/data
aquí estánEl parámetro -x especifica el servidor proxyLa dirección proxy de ipipgo debe rellenarse con la contraseña de su cuenta. Encabezado múltiple escribirá algunos más -H, con la calabaza de azúcar como una cadena.
Cabecera camuflaje cuatro diamantes
Estos son los parámetros que mejor funcionan:
- User-Agent (huella digital del dispositivo)
- Accept-Language (preferencia de idioma)
- Referente
- Cookies (credenciales de acceso)
Se recomienda obtener un archivo de configuración para almacenar combinaciones comunes, por ejemplo:
{
"móvil": {
"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 14_7 como Mac OS X)",
"Accept": "application/json"
},
"pc": {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)", "Accept-Language": {
"Accept-Language": "zh-CN,zh;q=0.9"
}
}
Rotación dinámica de la cabecera Negro
Usar siempre una cabecera fija seguirá haciendo que te pillen, y es el momento de ponerse con el ipipgo deGrupo de IP dinámicasEl efecto es comparable a los 72 cambios del Rey Mono. Con el script Cambia aleatoriamente de Cabecera, el efecto es comparable a los 72 cambios del Rey Mono:
headers_list = [
{"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)"},
{"User-Agent": "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.7.62"}, {"User-Agent": "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.7.62"}, {"User-Agent": "Opera/9.80 (Windows NT 6.1; U; es)
{"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36"}
]
proxy = "http://user:pass@proxy.ipipgo.cn:3000"
curl -x $proxy -H "${headers_list[$RANDOM % 3]}" https://xxx.com
Guía práctica para evitar el pozo
Algunos sitios detectarán el orden de la Cabecera, no piense que sólo escribirlo. Se recomienda utilizar el navegador para visitar el sitio normalmente, agarrar el paquete para ver la solicitud original de la orden del encabezado, de acuerdo con el gato dibujando el tigre es el más seguro.
| postura incorrecta | postura correcta |
|---|---|
| Falta Content-Type | Configuración por tipo de interfaz |
| juego de caracteres no permanente | UTF-8 unificado |
| marca de tiempo no convencional | Mantenimiento de la coherencia horaria |
sesión de preguntas y respuestas
P: ¿Qué debo hacer si me siguen baneando después de añadir a Header?
R: Pruebe ipipgo'sAgentes High StashSi tiene que ocultar completamente la IP original, compruebe si la cookie ha caducado o es demasiado frecuente.
P: ¿Qué hay de malo en tener que lidiar con las cookies?
R: Use curl -c para guardar el archivo cookie primero, y lleve el parámetro -b a las peticiones posteriores:
curl -x http://proxy.ipipgo.cn -c cookies.txt -b cookies.txt https://xxx.com/login
P: ¿Por qué la respuesta es más lenta después de utilizar un proxy?
R: Puede ser un problema de línea de nodo, interruptor en el fondo ipipgoLínea híbrida BGPElija una sala de servidores que esté físicamente cerca.
La solución definitiva
Al fin y al cabo, si quieres hacer una recogida de datos coherente.paquetes proxy comerciales de ipipgoEs el camino del rey. Exclusivo IP pool + conmutación inteligente de rutas + camuflaje automático de cabecera, solución tres en uno. Los nuevos usuarios recibirán 200M tráfico de prueba, no es bueno utilizar ladrillo directa.
Por último, una palabra molesta: camuflaje Header no es una panacea, con un intervalo de solicitud razonable. Al igual que comer barbacoa con cerveza, beber cerveza sola no es el sabor no es?

