
Si siempre te bloquean por IP, ¡prueba este truco!
Hermanos dedicados a los rastreadores de red entender, lote bajo la imagen del mayor dolor de cabeza es la IP está bloqueada. Por la mañana, la secuencia de comandos sigue funcionando bien, y por la tarde, le dará una.403 ProhibidoEste es el momento de sacar el proxy IP este salvavidas. Hoy vamos a utilizar Python para conseguir un descargador de imágenes con un escudo, con el servicio de proxy de ipipgo para proteger.
¿Por qué está bien no usar una IP proxy?
Hay tres cosas principales que buscar en un sitio web frente a los rastreadores:Frecuencia de solicitudes, rastros IP, características de los usuariosEl siguiente es un ejemplo de ello. Los crawlers ordinarios utilizan IP fijas para enviar peticiones, igual que la misma persona golpeando la puerta 100 veces por minuto, si los guardias de seguridad no te bloquean, ¿a quién bloquearán? Utilizar una IP proxy es como llamar a la puerta con un chaleco diferente cada vez, así los guardias de seguridad no te reconocerán en absoluto.
Ejemplo de configuración del núcleo para IPs proxy
proxies = {
'http': 'http://用户名:密码@gateway.ipipgo.com:9020',
https: http://用户名:密码@gateway.ipipgo.com:9020
}
de la mano del medio ambiente
Instale primero estas bibliotecas esenciales (recuerde que es más rápido instalarlas con el código fuente de Tsinghua):
pip install peticiones almohada reintento -i https://pypi.tuna.tsinghua.edu.cn/simple
Centrándose en la puerta de configuración ipipgo: entrar en su backend paraEnlace de extracción de APIOpciones sugeridasIP estática de larga duraciónpaquete, esta IP sobrevive durante mucho tiempo y es especialmente adecuada para tareas de rastreo que requieren un trabajo continuo.
El código está escrito de tal manera que resiste el bloqueo
Directo a lo duro. Mira esta cinta.Triple protecciónEl código:
from retrying import retry
import requests
from urllib.parse import urlparse
def descargar_img(url, guardar_ruta): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}
Obtener la IP del proxy dinámicamente desde la interfaz ipipgo
proxy = requests.get("https://ipipgo.com/fetchproxy?type=json").json()
@retry(stop_max_attempt_number=3)
def _descargar().
resp = requests.get(url, headers=headers.
proxies={"http": proxy['proxy']},
timeout=15)
resp.raise_for_status()
con open(save_path, 'wb') como f.
f.write(resp.content)
probar.
descargar()
except Exception as e.
print(f "Descarga fallida: {str(e)}, cambiando la IP de ipipgo...")
return False
return True
Old Driver QA Time
P: ¿Qué debo hacer si la IP proxy deja de funcionar de repente?
R: El grupo de IP de origen de ipipgo tieneConmutación automática en 5 segundossólo tienes que añadir un bucle de reintento en el código. Si te encuentras con una IP muerta, su backend también puede actualizar manualmente el nodo.
P: ¿Cómo sé si el poder está en vigor?
R: Añade una lógica de detección en el código, visita http://ip.ipipgo.com/checkip antes de descargar para ver si la IP devuelta es una IP proxy.
P: ¿Y si quiero abrir una descarga multihilo?
R: ipipgo'sPaquete para empresasSoporta concurrencia simultánea de 500 IPs, cada hilo con un proxy independiente, recuerde ajustar el tiempo de espera a más de 30 segundos.
Formulario de guía para evitar trampas
| bache | método resolver un problema |
|---|---|
| La IP se bloqueó demasiado rápido. | Aumentar la frecuencia de los cambios de IP en el backend ipipgo |
| La imagen no se carga completamente | Añada el renderizado de selenio y luego descárguelo. |
| Validada por el hombre-máquina del sitio | Activación del filtrado IP para salas de servidores con ipipgo |
Diga la verdad.
No creas en esos proxies gratuitos, por no hablar de la velocidad lenta, también puede contener troyanos. ipipgo he utilizado durante medio año, el mayor beneficio es queSe puede seleccionar la dirección IPSi quieres coger imágenes de cualquier región, sólo tienes que elegir el nodo. Recientemente tienen una campaña, los nuevos usuarios obtienen 10G de tráfico, ¡completa el código promocional cuando te registres!IMG2024También dispones de 5 G adicionales, suficientes para descargar decenas de miles de imágenes.
最后唠叨一句:别把设太低!有些网站故意拖慢响应速度,设10秒以下的超时就容易误判。用ipipgo的话,建议把Tiempo de espera a 15-20 segundosEl porcentaje de éxito puede aumentar un 30%.

