
La captura de datos sin una IP proxy no puede funcionar realmente.
Hermanos que participan en los rastreadores de red entienden que el sitio de destino mecanismo anti-escalada cada vez más despiadado, minutos IP ordinarios para ser bloqueados. Esta vez tenemos que confiar en proxy IP para jugar la guerra de guerrillas, hoy vamos a enseñar cómo proxy IP y robot rastreador para conseguir un pedazo.
Los tres ejes principales del rastreo automatizado
Primera HachaLa reserva dinámica de IP tiene que ser lo suficientemente grande. Al igual que el juego para tener suficientes botellas de sangre, tenemos que tener una piscina IP que se puede cambiar en cualquier momento. Aquí tenemos que asegurarnos de que nuestros propios hermanosipipgo, su grupo de IP se actualiza más de 500.000 al día con todos los tipos de protocolo.
Segunda hacha.La frecuencia de las peticiones tiene que ser complicada. No seas tonto con peticiones fijas por segundo, prueba algo como intervalos aleatorios (0,5-3 segundos).
Tercera hacha.El encabezado de la petición tiene que ser "cosplayed". Cambia aleatoriamente el User-Agent para cada petición para hacer que el sitio piense que eres una persona diferente visitando.
importar peticiones
from bs4 import BeautifulSoup
import random
import tiempo
def smart_crawler(url):
proxies = {
'http': 'http://user:pass@gateway.ipipgo.com:9020',
https': 'http://user:pass@gateway.ipipgo.com:9020'
}
cabeceras = {
'User-Agent': random.choice(UA_LIST)
}
time.sleep(random.uniform(0.5, 3))
response = requests.get(url, proxies=proxies, headers=headers)
Este es el código de análisis...
Caso práctico: robot de control de precios en el comercio electrónico
Recientemente ayudó a un amigo para conseguir un robot de comparación de precios, principalmente para mirar las fluctuaciones de precios de un determinado tesoro un cierto este. Con proxy dinámico residencial de ipipgo, con la siguiente tabla de configuración, estable funcionando durante dos meses sin darse la vuelta:
| montajes | Programa de configuración |
|---|---|
| Tipo IP | Agentes dinámicos residenciales |
| concurrencia | 10 hilos |
| intervalo de solicitud | 5-15 segundos aleatorios |
| fracasar y volver a intentarlo | Cambio automático de IP 3 veces |
Preguntas frecuentes QA
P: ¿Qué puedo hacer respecto a la lentitud de la velocidad IP del proxy?
R: En primer lugar, compruebe el tipo de protocolo, con el protocolo socks5 de ipipgo es generalmente más rápido que http por 30%. a continuación, es elegir un nodo cerca del servidor de destino.
P: ¿Cómo puedo comprobar la calidad de los proxies?
R: Se recomienda utilizar la interfaz de prueba proporcionada por ipipgo para devolver directamente el anonimato y el tiempo de respuesta de la IP. Puedes probar de esta manera si escribes tu propio script:
Dirección de prueba = "https://test.ipipgo.com/ipinfo"
Tiempo de respuesta = requests.get(dirección de prueba, proxies=proxy).elapsed.total_seconds()
Elegir el proveedor de servicios proxy adecuado es la mitad de la batalla
El mercado es una mezcla de proveedores de servicios de agencia, por lo que se recomienda centrarse en estos tres puntos:
1. Si hay una sala de servidores autoconstruida (ipipgo tiene 8 salas de servidores autoconstruidas en el país)
2. Si admite el pago por uso (se aconseja a los novatos que empiecen con el paquete de experiencia de ipipgo).
3. Si la documentación de la API es completa (la documentación de su familia puede ser leída incluso por alumnos de primaria)
Por último dar un consejo: no seas codicioso y barato con un agente libre, la fuga de datos de luz, pesada cuenta está bloqueada. Con ipipgo este ejército regular, fuera del problema también puede encontrar servicio al cliente chica regañando, no huele bien?

