
Hands-on enseñándote a elegir una herramienta de rastreo: Selenium y Scrapy al final ¿cuál es mejor?
Crawler gente de hierro viejo más a menudo hacen la pregunta es: con Selenio o Scrapy, estos dos bienes mirar los datos se pueden agarrar, pero el uso de la diferencia puede ser un gran ir. Hoy en día, vamos a romper las migajas que decir, sobre todo cómo utilizar con el proxy IP para no volcar el coche.
I. Los escenarios aplicables son muy diferentes
Empecemos por la conclusión:Selenium para la gente real, Scrapy para la velocidad y la cantidad.Lo primero que debe hacer es utilizar Selenium para simular la operación de una persona real. Por ejemplo, si quieres coger la evaluación de un producto, tienes que entrar y luego pasar la página, entonces usar Selenium puede simular perfectamente el funcionamiento de una persona real. Pero si usted quiere agarrar las páginas amarillas de la empresa a granel, Scrapy puede obtener docenas de páginas por segundo.
Aquí hay un escollo a tener en cuenta: es especialmente fácil que te bloqueen la IP cuando usas Selenium porque las características del navegador son muy obvias. Es hora de confiar en elProxy dinámico residencial para ipipgoSi quieres cambiar tu dirección IP automáticamente cada vez que nos visites, puedes reducir la probabilidad de bloqueo de 90%.
Postura de uso de IP proxy
| fig. patrón | Dificultad de configuración del agente | Programa recomendado |
|---|---|---|
| Selenio (informática) | Medio (para cambiar la configuración del navegador) | Cambio automático de API para ipipgo |
| Chatarra | Simple (cambiar el archivo de configuración) | Agente de túneles para ipipgo |
Añadir proxies en Scrapy es super fácil, dos líneas en settings.py:
DOWNLOADER_MIDDLEWARES = {
scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 543,
}
HTTP_PROXY = "http://用户名:密码@gateway.ipipgo.com:9020"
Y hay que trastear con Selenium así (usando Chrome como ejemplo):
from selenium import webdriver
proxy = "gateway.ipipgo.com:9020"
options.add_argument(f'--proxy-servidor=http://{proxy}')
III. Guía para evitar trampas en el combate real
Hace poco flipé mientras ayudaba a un cliente a rastrear cierto sitio de información empresarial. Usando Scrapy para solicitar directamente, el resultado eran todas las páginas CAPTCHA devueltas. Más tarde cambié a Selenium + ipipgo'sBrowser Fingerprinting ProxyEl problema se resolvió perfectamente. Un consejo: recuerda establecer un tiempo de espera aleatorio, no dejes que el sitio descubra que es un robot el que está operando.
Si te encuentras con la validación del deslizador, no cabecees con fuerza. Pruebe ipipgo'sSesión fija ProxyEl porcentaje de éxito puede ser mucho mayor si se mantiene la misma IP para completar todo el conjunto de operaciones.
IV. Respuestas a las preguntas más frecuentes
P: ¿Qué debo hacer si siempre me bloquean la IP?
R: Tres trucos: 1) Reducir la frecuencia de las peticiones 2) Usar el proxy rotatorio de ipipgo 3) Cambiar aleatoriamente el User-Agent
P: ¿Cómo puedo acceder a un sitio web que requiere un inicio de sesión?
R: Primero usa Selenium para simular el login y obtener las cookies, luego usa Scrapy para la operación por lotes. Recuerde emparejarlo con ipipgo'sProxy IP de larga duración, manteniendo el estado de inicio de sesión ininterrumpido.
V. Recomendaciones para la selección final
Dar una fórmula universal:
Volumen de datos <1000/día ➜ Agente Residencial Selenio+ipipgo
Volumen de datos >1000/día ➜ Proxy de centro de datos Scrapy+ipipgo
Por último, me gustaría recordarle: no trate de usar un proxy gratuito, la última vez que un cliente fue bloqueado segmento IP, el sitio directamente negro todo el segmento C. Con proxy exclusivo de ipipgo aunque más caro, pero la tasa de éxito está garantizada, el cálculo es realmente más rentable.

