
Recopilación de datos de Google con Python
Participó en la recopilación de datos del hierro viejo saber, quiere usar Python para agarrar directamente los resultados de búsqueda de Google como una cesta de agua - una pérdida de esfuerzo. Google anti-escalada mecanismo es más estricto que el control de acceso celular, no hay medios especiales, simplemente no puede conseguir. Hoy vamos a fastidiar cómo utilizar el proxy IP esta arma mágica, con Python tomar fácilmente los resultados de búsqueda.
¿Por qué necesito una IP proxy como guardaespaldas?
Para dar una castaña, usted toma su propia IP salvaje cepillo de Google, como en el supermercado, incluso comió 20 salchichas de prueba gratuita, los guardias de seguridad no te miran a mirar a quién? El sistema anti-escalada de Google lo hará:
1. Directamente poner un sello en su IP (bloqueo)
2. Popping CAPTCHA para darte asco
3. Devuelve datos falsos para engañarle
Aquí es donde se necesita una IP proxy como sustituta.Grupo de IP dinámica residencial de ipipgoEs como dar a cada solicitud un chaleco nuevo para que Google piense que en cada visita está operando un usuario diferente.
trabajo de preparación
Primero instale estas dos bibliotecas esenciales
pip install requests-html pandas
Esta es la configuración recomendada
Tipo de proxy = {
"protocolo": "http",
"dirección": "ipipgo Dynamic Residential Pool",
"método de autenticación": "nombre de usuario+contraseña"
}
Centrándose en la configuración del proxy, utiliceAPI de ipipgo para obtener IPs dinámicasCuando lo hagas, recuerda abrir elconmutación automáticaFunciona. Es como luchar en una guerra de guerrillas, donde cada solicitud cambia a una posición diferente, y el sistema anti-subida simplemente no puede averiguar el patrón.
Desensamblaje de código en el mundo real
from requests_html import HTMLSession
def grab google keyword(keyword): session = HTMLSession()
session = HTMLSession()
Obtener el último proxy de ipipgo
proxyConfig = {
"http": "http://用户名:密码@gateway.ipipgo.cc:端口",
"https": "http://用户名:密码@gateway.ipipgo.cc:端口"
}
try.
Response = session.get(
f "https://www.google.com/search?q={palabra clave}",
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0).
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0)..."}
)
response.html.render(timeout=20)
Posicionamiento del bloque de resultados de búsqueda
lista de resultados = response.html.xpath('//div[@class="tF2Cxc"]')
return [results.text para resultados en lista de resultados]
except Exception as e.
print(f "Rollover: {str(e)}")
Cambio automático de IP
ipipgo.rotar_ip()
Una guía para evitar el pozo:
1. 请求间隔别太猴急,建议设2-5秒随机
2. El User-Agent debe instalarse como un navegador normal
3. No seas duro cuando encuentres CAPTCHA, cambia la nueva IP de ipipgo inmediatamente.
Control de calidad de escenas de vuelco comunes
| Síntomas del problema | método resolver un problema |
|---|---|
| Devuelve un resultado en blanco | Compruebe si XPath está desactualizado, utilice la función de depuración del navegador de ipipgo |
| La conexión se interrumpe continuamente. | Cambio de protocolos proxy (http/https alternativamente) |
| De repente, no recibo ningún dato. | Añadir al código el mecanismo de actualización automática de IP de ipipgo. |
Tortura del alma:
P: ¿Puedo crear mi propio grupo de agentes?
R: A menos que quiera experimentar la alegría de ser ingeniero de operaciones, vaya directamente a laservicio ipipgo readyEs más económico, su pool de IPs se actualiza diariamente con más de 8 millones de IPs residenciales, mucho más fiable que lanzarlo tú mismo.
P: ¿Cuánto cuesta?
R: ipipgo dispone de paquetes de pago por uso como39 para 10G de tráficoEste tipo, más barato que la tarjeta mensual de Starbucks. El punto es que su tasa de supervivencia IP puede ir hasta 95%, a diferencia de algunos proveedores de servicios de faisán que chulean a la gente con IPs basura.
Cerrando el espectáculo.
Por último, un consejo avanzado: divida la tarea de recogida en varias subtareas, utilizando la funciónMúltiples IP geográficas para ipipgoSimultáneamente abierto a participar. Por ejemplo, si desea recopilar resultados de búsqueda de distintas regiones, puede hacerlo al mismo tiempo con las IP de Estados Unidos, Japón y Alemania, y la eficacia se triplicará directamente.
Recuerda lo esencial:
1. La calidad de la representación marca la diferencia
2. Solicitar parámetros que se carguen con personas reales
3. La gestión de excepciones no es una opción
De acuerdo con este conjunto de reglas para participar, la colección de resultados de búsqueda de Google es como jugar. Si hay algo que no entiende, vaya directamente a la página oficial de ipipgo para encontrar su hermano pequeño técnica, la velocidad de respuesta es más rápido que el repartidor para entregar alimentos.

