
Operación práctica con wget disfrazado de persona real
Quienes se dedican a la recopilación de datos en Internet saben que muchos sitios web pasarán elUsuario-AgenteIdentificar crawlers. Hoy vamos a utilizar el lenguaje más sencillo, decir cómo wget herramienta de línea de comandos desgaste "chaleco", con ipipgo servicio de proxy IP, perfecto para evitar la detección de sitios web.
wget --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/91.0.4472.124 Safari/537.36" https:/ /objetivos.com
El comando anterior hace precisamente esoagente de usuario que se hace pasar porNo estoy seguro de cómo hacer esto, pero voy a tratar de disfrazar wget como Chrome. Pero esto no es suficiente, si se utiliza el mismo acceso IP durante mucho tiempo, el sitio seguirá siendo bloqueado. Esta vez tenemos que ofrecer a nuestro asesino - ipipgo proxy dinámico IP.
Combinación de IPs proxy en el mundo real
Recomendado para ipipgoAgentes Residenciales DinámicosEste tipo de IP es exactamente igual a la IP del usuario real que navega por Internet, lo que resulta extremadamente encubierto. Consulte aquí los detalles sobre cómo configurarlo:
wget -e use_proxy=yes -e http_proxy=123.123.123.123:8888 --user-agent="Spoof UA" URL de destino
Sólo tienes que cambiar la dirección IP de allí a la IP proxy proporcionada por ipipgo. También puedes configurarlo en el backend de su casaCiclo automático de cambio de IPSe recomienda configurar los ajustes para que cambien cada 5-10 minutos, de modo que el sitio web no perciba el patrón en absoluto.
Tabla de paquetes de configuración antidetección
| elemento de configuración | valor recomendado |
|---|---|
| Usuario-Agente | Última versión de Chrome UA |
| intervalo de solicitud | 30-60 segundos al azar |
| Frecuencia de sustitución de PI | 5 minutos/viaje |
| Tipo de agente | Agente residencial |
Recuerda activarlo en el backend de ipipgoModelo de rotación IPEsta función puede cambiar automáticamente entre diferentes regiones de la IP, al igual que las novelas de artes marciales "cambio de forma", por lo que el sitio no puede ser defendido.
Directrices sobre desminado de problemas comunes
P: ¿Qué debo hacer si mi IP proxy falla de repente?
R: El pool de IPs de ipipgo es actualizado con mas de 200,000 IPs cada día, y cambiará automáticamente cuando encuentre una falla. Se recomienda agregar la línea de comando--reintento-rechazadose reintentan automáticamente.
P: ¿Cómo puedo comprobar si el agente está en vigor?
R: Pruebe primero con este comando:wget -q -O - checkip.ipipgo.compuede ver la IP de salida utilizada actualmente.
P: ¿Qué ocurre si el sitio sigue bloqueando solicitudes?
R: Tres direcciones de comprobación: 1. si la UA es demasiado falsa 2. si la frecuencia de petición es demasiado alta 3. si la IP del proxy está marcada. Se recomienda activar la consola ipipgoDetección de salud IPFunción.
Consejos de configuración actualizados
En el archivo de configuración~/.wgetrcAñade estos ajustes a la RI, de una vez por todas:
user_agent = Mozilla/5.0 (Windows NT 10.0; rv:91.0) Gecko/20100101 Firefox/91.0
use_proxy = on
http_proxy = ipipgo proxy dirección:puerto
retry_connrefused = on
random_wait = on
Por último, me gustaría recordarte que nunca debes ir a lo barato cuando elijas un servicio proxy. ipipgo'sAgentes High StashLa información X-Forwarded-For se borrará completamente en la cabecera de la solicitud, lo que constituye el verdadero "sigilo". Si se encuentra con un sitio web que requiere inicio de sesión, recuerde usarlo junto con una cookie, la tasa de éxito se puede aumentar en más de 70%.

