
El mayor dolor de cabeza del rastreo de datos de Zillow: el bloqueo de IP
Los conductores veteranos que han rastreado datos inmobiliarios saben que el mecanismo anti rastreo de Zillow es más hermético que una verja de vecindad. Y aquí está la peor parte.Dirección IP bloqueadaSi estás usando tu propia banda ancha, básicamente no podrás tocar Zillow este mes. Si estás usando tu propia banda ancha, básicamente no podrás volver a tocar Zillow este mes.
La semana pasada, un amigo que se dedica al análisis de propiedades en el extranjero vino a quejarse diciéndome que se había pasado tres días escribiendo un script de rastreo y que, justo después de ejecutarlo durante media hora, le habían bloqueado el acceso a más de 20 IP.servicio de agente residencial de ipipgoSerá capaz de romper el juego, su piscina IP dinámica es lo suficientemente grande como para cambiar automáticamente la IP de salida para cada solicitud, y el pro-prueba de recogida continua de 6 horas no desencadenó la prohibición.
Tres pasos clave para localizar datos JSON
Abre las Herramientas para desarrolladores de Chrome (F12), ve a la pestaña Red y, en este punto, toca cualquier filtro de la página de búsqueda de Zillow, como Ajustar rango de precios. Observa.Solicitud de tipo XHRLa clave es buscar un enlace de solicitud que contenga "api/search".
Un truco: en el cuadro de filtro, escriba/buscarPuede localizar rápidamente la solicitud de destino. Haciendo clic en el registro de la solicitud correspondiente, podrá ver en la pestaña Vista previa laDatos JSON estructuradosque oculta más de 20 datos clave, como las coordenadas del anuncio, los planos, los precios históricos, etc.
| nombre de campo | tipo de datos | valor de ejemplo |
|---|---|---|
| zpid | numérico | 1234567890 |
| precio | cadena (informática) | “$1,235,000” |
| dormitorios | entero (matem.) | 3 |
Sugerencias para la configuración de la IP proxy en el mundo real
Un ejemplo de uso de la biblioteca de peticiones de Python, centrado en la funcióncabeceras camuflajeresponder cantandoRotación de agentesDos enlaces. Aquí hay un escollo: Zillow comprueba el tipo de dispositivo del User-Agent, por lo que se recomienda utilizar la última versión del encabezado UA de Chrome, no esos UAs cutres de rastreo.
importar peticiones
from ipipgo import get_proxy Aquí usamos el SDK de ipipgo.
proxy = get_proxy(type='residential') el proxy residencial es más cercano al usuario real
cabeceras = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36...' ,
'Accept-Language': 'en-US,en;q=0.9'
}
response = requests.get(
'https://www.zillow.com/api/search', , 'Accept-Language': 'en-US,en;q=0.9' }
proxies={"http": proxy, "https": proxy},
headers=cabeceras,
timeout=10
)
tenga en cuentaNo ajuste el tiempo de espera por debajo de 8 segundos, una frecuencia de peticiones demasiado rápida será reconocida como un bot. Se recomienda trabajar con retardos aleatorios contime.sleep(random.uniform(1.2, 4.5))Simula los intervalos de funcionamiento reales.
Cinco baches que debe evitar
1. No utilice un proxy de centro de datossegmentos IP de AWS/GCP han sido marcados por Zillow desde hace mucho tiempo, ¡los proxies residenciales son el camino a seguir!
2. Las cookies deben estar separadasAlmacenamiento individual de cookies para cada IP proxy
3. Carga de imágenes desactivada: No cargue imágenes al rastrear datos, ¡ahorre tráfico y reduzca riesgos!
4. El reconocimiento CAPTCHA debe utilizarse con precauciónLos servicios de codificación automatizada pueden aumentar significativamente la probabilidad de ser bloqueados.
5. Control de la frecuencia de actualización de datosNo capture el mismo anuncio más de 3 veces al día.
Preguntas frecuentes QA
P: ¿Por qué me siguen bloqueando con una IP proxy?
R: Revisa si estas usando un proxy compartido, se recomienda cambiar el proxy residencial exclusivo de ipipgo, cada sesión es una IP limpia
P: ¿Qué debo hacer si faltan algunos campos en los datos JSON?
R: Pruebe a añadir a los parámetros de la solicitud?include=todosPuede que necesites entrar en el estado, ¡recuerda colgar un proxy para simular la IP local de Estados Unidos!
P: ¿Cuál de los paquetes de ipipgo es mejor para Zillow?
R: RecomendadoAgente residencial-profesionalSoporta rotación automática de IP + geo-localización, especialmente para captar el precio de la vivienda regional, puede especificar la IP de exportación a nivel estatal
Cómo elegir un servicio de agentes fiable
La maldita experiencia de haber recurrido a siete u ocho agencias proveedoras de servicios:
1. IP pool de al menos 5 millones (ipipgo tiene un IP pool residencial de 12 millones +)
2. TenerGarantía de éxito de las solicitudesSi es inferior a 95%, puedes pasarlo.
3. API para permitir la personalización por escenarios empresariales, como establecer el número máximo de veces que se puede utilizar una misma IP.
4. Debe proporcionar 7 × 24 horas de soporte técnico, las últimas tres de la mañana para cumplir con la IP no se puede conectar, la tecnología ipipgo segundos de vuelta a las órdenes de trabajo
Finalmente recordar a los novatos: no intenten comprar esos proxies basura $0.1/IP baratos, el sistema de control de viento de Zillow es más inteligente de lo que piensan. Puedes usar ipipgo en la fase de pruebas.Paquete de prueba gratuito500 solicitudes al día son suficientes para realizar todo el proceso.

