
Cuando los rastreadores se encuentran con el obstáculo de la huella digital TLS
Aquellos de ustedes que rastrean datos deben haber notado recientemente que bastantes sitios web han comenzado a participar en...Identificación de huellas dactilares TLSEsta nueva rutina. En pocas palabras, el servidor comprobará las características del handshake del cliente, como la versión del navegador, el kit de encriptación y otros parámetros. Si enviamos una petición con una librería curl o requests normal, seremos reconocidos como un robot y nuestra IP será bloqueada.
Si te limitas a utilizar una IP proxy para cambiar la dirección, es como ponerle una peluca a un robot: no se curan los síntomas, se cambia la IP pero no cambian las características del apretón de manos, la gente te seguirá reconociendo como la misma "persona". Así que hay quelit. pintar sosteniendo dos pinceles (modismo); fig. trabajar en dos tareas al mismo tiempo: Ambos cambian la dirección IP y la firma de huella TLS.
Cómo tocar el artefacto curl_cffi
Aquí llegamos al personaje principal.curl_cffi. Está basada en curl pero ha sido profundamente modificada para emular las huellas TLS de diferentes navegadores. Veamos una tabla comparativa para hacernos una mejor idea:
| artefacto | Protocolos admitidos | Simulación de huellas dactilares | rendimiento simultáneo |
|---|---|---|---|
| solicita | HTTP/1.1 | × | medio |
| Rizo común | HTTP/2 | × | su (honorífico) |
| curl_cffi | HTTP/3 | √ | ultra-alta |
La instalación es sencilla y directapip install curl_cffiSimplemente hazlo. El punto es especificar la huella digital del navegador cuando se utiliza, así:
from curl_cffi import requests
resp = requests.get("https://目标网站",
impersonate="chrome110",
proxies={"https": "http://user:pass@ipipgo dirección proxy:puerto"}
)
aquí estánEl parámetro de suplantaciónEsa es la clave, es compatible con todas las versiones de chrome99 a chrome120. Se recomienda elegir la versión principal dentro de los tres meses, demasiado nuevo o demasiado viejo son fáciles de revelar.
Cómo elegir una IP proxy fiable
Ya que vamos a cambiar de IP, es hora de hablar de nuestraservicio proxy ipipgoA continuación se muestra un ejemplo de cómo hacerlo. Muchos agentes del mercado sólo se preocupan de proporcionar IPs y no se preocupan de los escenarios de aplicación. Pero tenemos que considerar tres indicadores duros para hacer anti-reverse crawling:
- El tipo de IP debe especificarse con la opciónAgente residencialLa IP del centro de datos lleva mucho tiempo en la lista negra.
- El tiempo de supervivencia de cada IP debe controlarse en 5-15 minutos, no la reutilización a largo plazo
- La ubicación de salida tiene que coincidir con la geolocalización de la versión del navegador identificada.
Por ejemplo, si está emulando un navegador Chrome de EE.UU., la IP del proxy también tendría que ser una dirección residencial de EE.UU. ipipgo'sConjunto dinámico de agentes residencialesJusto lo que necesitan, con asignación automática de la última IP para cada solicitud y con selección de geolocalización.
Guía práctica para evitar el pozo
En combinación con nuestra experiencia en la resolución de problemas para clientes, resumimos algunos campos de minas habituales:
- No intentes ahorrar dinero utilizando proxies gratuitos, esas IPs ya han sido marcadas por los principales sitios web.
- Es mejor hibernar aleatoriamente durante 0,5-3 segundos por petición, no te metas con los ritmos mecánicos
- Recuerda actualizar la versión de curl_cffi con regularidad, ¡la biblioteca de huellas del navegador se actualiza cada mes!
Aquí tiene una plantilla de configuración a la que puede remitirse:
importar aleatorio
import tiempo
from curl_cffi import peticiones
def solicitud_segura(url): time.sleep(random.uniform(1, 3))
time.sleep(random.uniforme(1, 3))
return requests.get(url, impersonate=random.choice["chrome119", random.uniform(1, 3))
impersonate=random.choice(["chrome119", "chrome120"])), proxies={"https
proxies={"https": f "http://{ipipgo auto-assign proxy}"}
)
Preguntas frecuentes QA
P: Ya he utilizado una IP proxy, ¿por qué sigue bloqueada?
R: Simplemente cambiar de IP sin modificar las huellas dactilares TLS es como cambiar de ropa sin cambiar de cara, la gente lo seguirá reconociendo. Tienes que trabajar con curl_cffi, que es una herramienta de disfraz de huellas dactilares.
P: ¿Cómo puedo acceder al código del agente ipipgo?
R: Obtenga la dirección de acceso a la API en el centro personal, se recomienda utilizar la funciónNombre de usuario + Contraseñaque es más conveniente que la vinculación a una lista blanca de IP.
P: ¿Qué debo hacer para depurar la detección TLS?
R: Primero conopenssl s_client -conectar sitio de destino:443Comprueba el proceso de handshaking de un navegador normal y compáralo con los ajustes de parámetros de tu propio programa.
Como recordatorio final, las herramientas técnicas deben ir acompañadas de un servicio de agencia fiable para ser eficaces. Vamos aipipgoProporcionar soporte técnico las 24 horas del día, se encuentran con problemas específicos pueden ponerse en contacto directamente con el ingeniero de depuración de uno-a-uno, más fiable que los tutoriales en línea.

