
Manos a la obra con las consultas de texto de XPath para obtener datos
Lo más molesto de la recogida de datos es que la estructura de la página web cambia, hoy para enseñar a la gente un truco ---Función contains() de XPathEs como un GPS para elementos web. Es como poner un GPS en un elemento web, para que puedas localizarlo aunque cambies el estilo de la página.
Por ejemplo, si desea capturar el precio de un producto pero se encuentra con que el elemento de precio de la página web no tiene un identificador fijo, utilice la función//span[contains(text(),'¥')]Sólo tienes que coger todas las etiquetas con el símbolo ¥, no importa en qué rincón o grieta esté escondido.
//div[contains(@class,'precio-caja')]//span[contains(text(),'¥')]
Proxy IP y XPath cómo echar un polvo
Cuando se utilizan rastreadores para obtener datos frenéticamente, la prevención de incendios de sitios web no es nada fácil. Entonces es el momento de sacar nuestroipipgo Proxy Residencial DinámicoSu reserva de IP no tiene fondo, y con la coincidencia difusa de XPath, la eficacia de la recopilación se duplica directamente.
Por ejemplo, si desea obtener el precio de una división nacional de una empresa de comercio electrónico, utilice la función de ipipgoAgentes de localización a nivel de ciudadCambie de IP regional y vuelva a utilizar este XPath para capturar los precios:
//[contains(@id,'precio_') and contains(text(),'precio con descuento')]]
Recuerde configurar la autenticación proxy de ipipgo en el código:
importar peticiones
proxies = {
'http': 'http://用户名:密码@gateway.ipipgo.com:端口',
https: http://用户名:密码@gateway.ipipgo.com:端口
}
response = requests.get(url, proxies=proxies)
Guía práctica para evitar el pozo
Tres errores comunes de los novatos:
| postura incorrecta | La forma correcta de abrir |
|---|---|
| //div[text()='texto completo'] | //div[contiene(. texto parcial')] |
| Ignorar formato de codificación | Utilice primero normalise-space() para tratar los espacios |
| rigidez de un solo agente | Uso con el agente rotatorio de ipipgo |
Centrándonos en el tercer punto, cuando el sitio cuente con un mecanismo anti-crawl, recuerde integrar ipipgo en el código de recolección XPath delFunción de cambio automático de proxyDe este modo, cada solicitud se exporta desde una IP diferente, lo que se ha demostrado eficaz para evitar el bloqueo.
sesión de preguntas y respuestas
P: ¿Qué debo hacer si no encuentro un elemento en XPath?
R: Primero compruebe si el contenido se carga dinámicamente, este caso tiene que trabajar con Selenium, recuerde configurar el proxy de ipipgo en Selenium, su familia soporta elConfiguración del proxy en el navegador.
P: ¿Qué debo hacer si la IP de mi proxy se desconecta continuamente?
R: El 80% de ellos utilizan proxies de spam. Las líneas de proxy exclusivas de ipipgo sonConexión garantizada en 5 segundosy la hora punta del mundo real es tan estable como un perro viejo.
P:¿Qué debo hacer si necesito cobrar sitios web en el extranjero?
R: El agente de la sala de servidores en el extranjero de ipipgo cubre más de 50 países, con la consulta de texto multilingüe de XPath, por ejemplo, para encontrar el precio del sitio web alemán con la etiquetacontains(text(),'€')...una captura.
Por último, XPath es algo que necesitas practicar más para familiarizarte. No seas duro en páginas complejas, usa contains() con nuestros ipipgo'sAgente de resolución inteligenteNo estoy seguro de si va a ser capaz de hacerlo, pero estoy seguro de que va a ser capaz de hacerlo. Código para escribir cansado a su fondo casero agarre una prueba gratuita, los nuevos usuarios para enviar tráfico 5G paquete de la misma.

