
Para todos los aficionados a los datos, ésta es la forma más segura de arrastrarse por Twitter.
Recientemente, muchos amigos que se dedican a la analítica de redes sociales se han quejado de lo limitado que resulta obtener datos de Twitter de la forma habitual. Lo sé muy bien. El año pasado, cuando estaba haciendo análisis de la competencia, utilicé mi propio script de rastreo durante tres días consecutivos, y como resultado, la IP fue directamente cerrada en una pequeña habitación negra. Más tarde, descubrí que el uso de la rotación de IP proxy es el camino del rey, y hoy voy a compartir este conjunto de formas salvajes con usted.
¿Por qué siempre se te caen las orugas?
Muchos novatos tienden a caer en estos baches:
1. Solicitudes de alta frecuencia de IP única: Es como probar comida una y otra vez en un supermercado y no pagar por ella... ¿no se te quedan mirando los dependientes cada minuto?
2. Demasiada concentración de segmentos IP: Son todas las IPs que empiezan por 192.168 las que van llamando a las puertas, y cualquier tonto sabe que es la misma gente.
3. No simula a una persona real.: Peticiones mecánicas cronometradas, ni siquiera simulación de trayectoria del ratón
El año pasado, un cliente que realizaba un seguimiento de la opinión pública utilizaba 10 IP fijas para captar datos en rotación, y todas ellas fueron baneadas al tercer día, y luego cambió a utilizar las IP residenciales dinámicas de nuestro ipipgo con intervalos de solicitud aleatorios, y funcionó de forma estable durante dos meses sin volcarse.
¿Cómo elegir una IP proxy fiable?
| tipología | Escenarios aplicables | índice recomendado |
|---|---|---|
| Centro de datos IP | Recogida a corto plazo a pequeña escala | ★★★ |
| IP residencial estática | Identidad fija requerida | ★★★★★ |
| IP residencial dinámica | Recogida a gran escala a largo plazo | ★★★★★ |
Aquí está el truco.IP residencial dinámicaLas IP son exactamente las mismas que utilizan los usuarios reales para acceder a Internet. Como el pool de ipipgo tiene más de 20 millones de IPs de este tipo, que se cambian automáticamente cada vez que se hace una petición, por lo que la plataforma no puede saber si se trata de una persona real o de una máquina. La última vez, había un equipo monitorizando Netflix, utilizando su paquete 1C (5.000 IPs al día) para realizar comparaciones de datos entre regiones, y funcionó correctamente durante tres meses.
Configuración práctica de la API
Tomemos como ejemplo Python, con la biblioteca requests + el servicio proxy ipipgo:
importar peticiones
from itertools import ciclo
proxies = ciclo([
"http://user:pass@gateway.ipipgo.io:8000", "http://user:pass@gateway.ipipgo.io:8000", "http://user:pass@gateway.ipipgo.io:8000", "http://user:pass@gateway.ipipgo.io:8000", "http://user:pass@gateway.ipipgo.io:8000
"http://user:pass@gateway.ipipgo.io:8001",
Añade más puertos...
])
def obtener_tweets(palabra_clave).
proxy_actual = next(proxies)
try: proxy_actual = siguiente(proxies)
res = requests.get(
url="https://api.twitter.com/2/tweets/search/recent",
params={"consulta": palabra clave}, proxies={"http": proxies_actuales")
proxies={"http": proxy_actual}, timeout=10
tiempo de espera=10
)
return res.json()
except.
print(f"{proxy_actual} colgado, cambiando automáticamente al siguiente nodo")
return get_tweets(palabra_clave)
centroRecuerde establecer un retardo aleatorio (0.5-3 segundos), no use un tiempo de SLEEP fijo. Se recomienda hacer que el User-Agent en un grupo de sondeo, nos ipipgo fondo tiene un generador de UA listo se puede espigar directamente.
Old Driver QA Time
P: ¿Por qué sigue bloqueado después de usar un proxy?
R: El noventa por ciento del problema es la calidad de la IP. No seas tacaño y utilices proxies gratuitos, esas IPs hace tiempo que están marcadas como podridas. Se recomienda usar ipipgo con mecanismo de limpieza automática, su sistema expulsará la IP de la lista negra en tiempo real.
P: ¿Qué paquete debo elegir para capturar 100.000 niveles de datos?
R: Directamente en la versión personalizada de ipipgo enterprise, soporta el número de concurrencia sin límite. La última vez, una empresa 4A invertido en proyectos en el extranjero, utilizando su canal exclusivo para recoger 500.000 tweets al día, la limpieza de datos directamente en el sistema de BI.
P: ¿Qué debo hacer si la API devuelve un error 429?
R: Esto está activando un límite de velocidad. Tres pasos: 1. comprobar la frecuencia de las peticiones 2. cambiar los otros nodos geográficos de ipipgo 3. añadir lógica de reintento después en la cabecera de la petición
Un último regaño: ahora que se ha actualizado el control del viento de todas las plataformas, no basta con cambiar la IP. Se recomienda igualar el ipipgoEmulación de huellas dactilares del navegadordisimulando el canvas, webgl y todos estos parámetros, que es el verdadero - stealth mode.

