
Esta podría ser la solución de recopilación de datos SERP que nunca ha visto.
La recopilación de datos del viejo hierro saber, llamar directamente a la API del motor de búsqueda es como correr desnudo - minutos para ser bloqueado IP. los llamados interfaz API oficial, ya sea escandalosamente caro, o más restricciones como una cuerda floja. Hoy hablamos de algunas maneras salvajes, con proxy IP para jugar con la colección de resultados del motor de búsqueda.
¿Por qué fracasan siempre los métodos tradicionales?
Muchos novatos vienen y se apropian del código, sólo para descubrirlo:
importar peticiones
response = requests.get('https://api.search.com?q=关键词')
Media hora después... Tu IP ha sido restringida
el problema es...Las solicitudes tienen un carácter demasiado homogéneo. Motor de búsqueda no es un tonto, la misma solicitud de alta frecuencia IP, con los dedos de los pies puede adivinar es la operación de la máquina. En este momento es necesario proxy IP para cubrir, de modo que cada solicitud es como un usuario diferente en la operación.
La forma correcta de abrir una IP proxy
Hay tres indicadores duros en los que fijarse a la hora de elegir una IP proxy (tomemos ipipgo como ejemplo):
| norma | valor de conformidad | rendimiento del ipipgo |
|---|---|---|
| Tiempo de supervivencia IP | >12 horas | Ajuste dinámico del ciclo de supervivencia |
| localización geográfica | Más de 20 provincias y ciudades | Cobertura total de 34 distritos administrativos provinciales |
| Porcentaje de éxito de las solicitudes | >98% | 99,2% datos medidos |
Aquí está el truco.Ajuste del intervalo de solicitud: No seas tonto con intervalos de tiempo fijos, detente aleatoriamente como una persona real que busca. Así:
importar aleatorio
importar tiempo
def retardo_aleatorio(): time.sleep(random.uniform(1.5, 5.8))
time.sleep(random.uniform(1.5, 5.8)) espera aleatoriamente 1.5-5.8 segundos
Problemas en el campo
Recuerde emparejar estos consejos cuando utilice el proxy pool de ipipgo:
1. Camuflaje UA: No utilice sólo un logotipo de navegador, prepare más de 20 rotaciones comunes de UA
2. Solicitud de aleatorización de cabecera: Accept-Language, Referer, y otros parámetros deben ser cambiados cada vez.
3. Mecanismo de reintento de falloAuto switch IP retry cuando se encuentra el código de estado 429
Vea un ejemplo completo:
from ipipgo import ProxyPool Esta es la librería principal a utilizar.
importar fake_useragent
proxy = ProxyPool(token='tu clave') get from ipipgo backend
ua = fake_useragent.UserAgent()
def búsqueda(palabra clave).
headers = {
User-Agent': ua.random,
'Accept-Language': 'zh-CN,zh;q=0.9'
}
proxies = proxy.get_proxy() Obtener automáticamente las últimas IPs
prueba.
response = requests.get(
f'https://api.search.com?q={palabra clave}',
headers=cabeceras, proxies=proxies,
headers=cabeceras, proxies=proxies,
timeout=8
)
return response.json()
except Exception as e.
proxy.report_error(proxies['ip']) marcar la IP problemática
return search(keyword) auto-retry
Guía para evitar el pozo (sesión de control de calidad)
P: ¿Por qué me siguen bloqueando después de usar un proxy?
R: Compruebe tres puntos: 1. si la cabecera de la solicitud está ajustada 2. si la calidad de la IP es conforme a la norma 3. si la frecuencia de la solicitud es demasiado alta
P: ¿Con qué rapidez puedo cobrar?
R: Con el programa de concurrencia de ipipgo, la prueba real puede recoger 30.000 datos en una hora. ¡Pero tenga cuidado de no ser codicioso rápido, el control de 2-3 peticiones por segundo es más seguro!
P: ¿Qué tiene de malo que de repente los datos sean menos?
R: La probabilidad de activación del mecanismo anti-escalada. Sugerencias: 1. Sustituir el segmento IP 2. Aumentar la simulación de la pista de movimiento del ratón 3. Añadir aleatoriamente sufijos de palabras clave de búsqueda.
Di algo desde el corazón.
Las IPs proxy son como los consumibles, no intentes comprar IPs basura baratas, he usado una IP determinada antes, 6 de cada 10 están en la lista negra de los buscadores. Más tarde, me cambié a ipipgo, principalmente debido a su familia deMecanismo de limpieza de IPLa reserva de IP se mantiene pura eliminando automáticamente las IP marcadas a diario.
Por último recordar: recopilar datos para cumplir con las reglas de la plataforma, no coger un motor de búsqueda a la garra de la muerte. Conjunto razonable estrategia de recogida, con IP proxy de alta calidad, es la solución a largo plazo. Si usted necesita para probar, usted puede ir a ipipgo sitio web oficial para obtener un paquete de prueba gratuito, los nuevos usuarios para enviar 1G flujo suficiente para tirar.

