
Cuando la oruga se encuentra con el antitrepa - proxy ip postura de rescate
Los chicos usan Python para participar en el rastreo de datos, sin duda eludir Solicitudes y Scrapy estos dos viejos compañeros. Estos dos bienes mirar el trabajo de rastreadores, pero el uso real de la diferencia puede ser mucho. Hoy vamos a hablar de ellos y proxy ip con el uso, especialmente nuestroipipgo¿Cómo funciona el servicio proxy del hogar por parte de estas dos bibliotecas?
Guerra de guerrillas vs. Guerra de grupos
Las peticiones son como una navaja suiza, si quieres coger una página web temporalmente, puedes hacerlo en tres líneas de código. Pero cuando te encuentras con un escenario en el que necesitas cambiar un montón de ips, tienes que escribir tu propia lógica de rotación:
importar peticiones
from ipipgo import get_proxy Nuestra propia interfaz proxy.
def grab_data(url): proxy = get_proxy()
proxy = get_proxy() Obtiene aleatoriamente un proxy de alta calidad
try: resp = requests.get(url): proxy = get_proxy()
resp = requests.get(url, proxies={"http": proxy, "https": proxy}, timeout=10)
return resp.text
except.
print("Esta ip puede estar prohibida, cambiando automáticamente a la siguiente.")
return grab_data(url) reintento recursivo
Scrapy es una fábrica de automatización, con su propio mecanismo de middleware que hace que la rotación de proxy un gran dolor en el culo. Configurarlo en settings.py.ipipgoAPI, y toda la fuerza de rastreo se viste automáticamente:
DOWNLOADER_MIDDLEWARES = {
scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 100,
}
IPIPGO_API = "https://api.ipipgo.com/rotate" interfaz ip pool dinámica
def process_request(self, request, spider).
request.meta['proxy'] = self.get_proxy() Obtiene automáticamente el proxy para cada petición
Hoja informativa sobre la comparación del consumo indirecto
| toma | Solicita el consumo | Consumo de chatarra |
|---|---|---|
| Coge 1000 páginas | Alrededor de 30-50 ip | Controlable en 10 |
| Encuentro CAPTCHA | Se requiere sustitución manual | Conmutación automática de fusibles |
| rastreo distribuido | Estado de sincronización difícil | Agrupaciones de apoyo natural |
Guía práctica de selección
Se aconseja a los hermanos que empiezan que utilicen primero Requests+.ipipgode un paquete proxy estático que fija el uso de la ip de una región así:
proxies = {
"http": "121.36.84.149:8008", canal exclusivo copiado del backend ipipgo
"https": "121.36.84.149:8008"
}
Cuando llegue el momento de un gran proyecto, recuerda recurrir a Scrapy + agrupación dinámica de agentes. VamosipipgoLa interfaz de programación inteligente puede hacer coincidir automáticamente la ip residencial o la ip de la sala del servidor en función de la fuerza antiescalada del sitio web de destino, lo que resulta mucho más fiable que ceñirse a un único tipo de ip.
Old Driver QA Time
P: ¿Qué debo hacer si siempre me bloquean la ip?
R: Compruebe tres cosas: 1. si el anonimato del proxy es lo suficientemente alto (con el paquete Extreme Stash de ipipgo) 2. si el encabezado de la solicitud tiene una huella digital del navegador 3. si la frecuencia de visita es como la de una persona real
P: ¿Cómo establecer la frecuencia de cambio de ip en Scrapy?
R: Agregue un contador al middleware de descarga, por ejemplo, cambie la ip cada 5 peticiones. cuando utilice el paquete de concurrencia de ipipgo, se recomienda establecer la frecuencia de 200 veces o menos en 1 minuto.
P: ¿Es correcto utilizar un proxy gratuito?
R: ¡Hermano, te estás cavando una fosa! Los Agentes Libres 90% son honeypots, y si son ligeros, perderán datos, y si son pesados, serán marcados por el anti-escalamiento. Nosotrosipipgo¿Por qué utilizar uno poco fiable cuando hay un paquete de experiencia de 5 dólares para nuevos abonados?
Por último, dijo una lección en lágrimas: el año pasado con las solicitudes para atrapar a un sitio de comercio electrónico, no colgar el agente duro justo, los resultados de media hora se bloqueó toda la sala de servidores de salida ip. más tarde reemplazado con Scrapy + ipipgo agente residencial dinámico, colgado en funcionamiento durante tres días y tres noches no entregar el coche. ¡Así que ah, la herramienta para elegir el agente adecuado en su lugar, este es el rey de los reptiles no entregar el coche!

