
El arma secreta que convierte a wget en un recolector de datos
Los hermanos que nos dedicamos a la recogida de datos sabemos muy bien que utilizar wget para descargar algo es como conducir un tractor para recoger trigo: sencillo y tosco, pero con mucho ruido. Si no haces un buen trabajo de camuflaje, serás exterminado por el lugar de destino como una plaga en un minuto. Hoy te enseñaremos a cargar el tractor con eldispositivo de camuflajelo que la convierte en una cosechadora silenciosa.
La IP proxy es el verdadero blindaje
¿Has visto alguna vez a un tonto luchar con chaleco? Así es el Naked Crawler. Ponerle una IP proxy a un wget es como ponerle una coraza a un soldado. Tengo que darle a mi propio hermano el beneficio de la duda.ipipgoLo mejor de todo: su pool de proxy tiene más IPs que una bailarina de Square Dance, y puede cambiar de chaleco en cualquier momento. Utilice este comando de configuración:
wget --proxy=on --proxy-user=ipipgo_user --proxy-password=tu_pwd --proxy=http://gateway.ipipgo.com:9021 https://目标网站
Tenga cuidado de sustituir _contraseña_ por su propia clave de cuenta, para que cada solicitud sea como un nuevo documento de identidad, y el sitio simplemente no pueda descifrar la rutina.
Tres cuchillas para el ajuste de parámetros
| parámetros | efecto | valor recomendado |
|---|---|---|
| -espera-aleatoria | Imitación de los temblores de la mano humana | 30-90 segundos |
| -limit-rate=200k | tarjeta de red | 100-300k |
| -header="Accept-Language: en" | hacerse pasar por extranjero | Cambio según el objetivo |
Aquí está el truco.-agente-usuarioEste parámetro teaser. Se recomienda tener de 5 a 10 UA's de diferentes navegadores para rotar, para no tener siempre Chrome en la espalda. Con el Proxy Residencial Dinámico de ipipgo, está vivito y coleando con un internauta global accediendo.
Los trucos ocultos del maestro del disfraz
1. truco del tiempoEl comando "dormir": introduce un comando de dormir en el guión y no hagas que el tiempo de acceso sea demasiado regular, como un humano que pasa el teléfono en mitad de la noche.
2. cosecha por lotesDividir la tarea en decenas de pequeños archivos y descargarlos por lotes utilizando diferentes IPs de exportación de ipipgo.
3. escalonar los gastos de viaje para aliviar los picos de cargaObservar los periodos de poco tráfico en los sitios web objetivo y configurar wget para que se inicie automáticamente entre las 2 y las 5 de la mañana.
Práctico botiquín de primeros auxilios de garantía de calidad
P: ¿Qué debo hacer si me siguen expulsando de IP?
R: El 80% de la calidad del proxy tira de la entrepierna. Cambiar ipipgo'sAgente residencial estático de larga duraciónSu ciclo de supervivencia en PI es 3 veces superior al de sus compañeros, y personalmente ha recogido medio mes seguido sin volcarse.
P: ¿Qué debo hacer si me desconecto en mitad de la descarga?
A: Sacrificio-cParámetros a continuación, con la desconexión de ipipgo función automática de cambio de IP, incluso si las telecomunicaciones bombardeado puede seguir pasando.
P: ¿Cómo puedo saber si el disfraz ha funcionado?
R: Utilice este comando para ver la cabecera de la solicitud recibida por el sitio web:
wget -S --spider --proxy=... URL de destino
Céntrate en comprobar los campos X-Forwarded-For, si muestra la IP proxy de ipipgo en lugar de tu IP local, entonces el disfraz está en su lugar.
El combo definitivo
Por último, daré una plantilla para una configuración aplastada:
wget -c -np -r -l 5 --limit-rate=150k --random-wait=45 --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36..." --header="Accept-Encoding: gzip" --proxy-user=ipipgo_dynamic_key --proxy-password=Token de actualización automática --proxy=http://rotating.ipipgo.com:9083 https://要采集的网站
Este combo está emparejado con ipipgo'sEnrutamiento inteligenteLa función selecciona automáticamente el nodo más rápido. Recuerde que debe actualizar periódicamente la UA y el intervalo de descarga, el control del viento sitio ver todos tienen que gritar gran hermano.

