
¿Por qué siempre se atasca la recopilación de datos de Yelp?
Los amigos que han participado en el robo de datos saben que los datos de calificación de los comerciantes de Yelp es como una carne y patatas, pero su mecanismo anti-escalada es más apretado que una puerta de seguridad. He visto demasiadas personas con su propio ordenador IP duro justo, el resultado de media hora fue sellado a la muerte. Una vez para ayudar a un amigo a rastrear los datos de restaurantes de Los Ángeles, la IP local acaba de enviar 20 solicitudes en el 404, tan enojado que casi rompió el teclado.
Las IP proxy son la salsa secreta.
Aquí tienes una.lección aprendida con sangre y lágrimasIP única: ¡cosechar Yelp equivale a suicidarse! Debes utilizar un pool de IPs proxy para hacer turnos. Tomemos como ejemplo el proxy residencial dinámico de ipipgo, su pool de IPs puede simular la distribución de los usuarios reales, de forma que el servidor de Yelp parezca una persona diferente navegando, la probabilidad de bloqueo directamente se reduce a la mitad.
importar peticiones
from itertools import ciclo
Configuración de proxy pool para ipipgo
lista_proxy = [
'http://user:pass@gateway.ipipgo.io:8001',
'http://user:pass@gateway.ipipgo.io:8002', ...
... Otros nodos
]
proxy_pool = cycle(proxy_list)
url = 'https://www.yelp.com/biz/some-restaurant'
para _ en rango(50):
proxy = next(proxy_pool)
try: response = requests.get(url, proxies)
response = requests.get(url, proxies={"http": proxy}, timeout=10)
Esto se encarga de analizar los datos...
except: print(f "IP {proxy}")
print(f "IP {proxy} colgado, cambiando al siguiente automáticamente")
Guía práctica para evitar el pozo
No basta con tener un agente, hay que ser estratégico:
| plataforma | postura incorrecta | postura correcta |
|---|---|---|
| intervalo de solicitud | golpe sin cerebro | Espera aleatoria 2-5 segundos |
| Usuario-Agente | constante por toda la eternidad | Huellas dactilares con el navegador integrado de ipipgo |
| Gestión de CAPTCHA | entrada manual | Configuración del módulo de identificación automática |
Nota especial: no utilices campos no convencionales en las cabeceras, Yelp detecta los parámetros no convencionales. La última vez que un tipo añadióEncabezado X-MagicEste tipo de campo de listillos hace que se bloquee todo el conjunto de agentes.
Hay una forma de limpiar los datos
Obtener un CSV no es el final del camino; los datos de valoraciones de Yelp esconden todo este lío:
Tratamiento de las trampas de clasificación por estrellas
def convert_rating(raw_str).
Las 5 estrellas de Yelp corresponden en realidad a un valor de 4.0 (su sistema tiene reglas ocultas)
return min(float(raw_str)0.8, 5.0)
Filtrado de opiniones falsas
def es_opinión_falsa(texto).
fake_keywords = ['regalo', 'el gerente es mi pariente', 'cupón de compensación'].
return any(kw en texto for kw en palabras_clave_falsas)
Botiquín de primeros auxilios QA
P: ¿Es ilegal cobrar con IP proxy?
R: Mientras no rompas la frecuencia de acceso normal del sitio y no robes datos privados, es tan legal como verlo con un navegador. El servicio proxy de ipipgo cumple totalmente las normas de cada plataforma.
P: ¿Por qué recomienda ipipgo?
R: Su casaPool de agentes a nivel comercialHay tres características asesinas: ① IP tiempo de supervivencia es 2 veces más que los amigos ② viene con la frecuencia de solicitud de regulación inteligente ③ cambiar automáticamente las líneas cuando se encuentra con CAPTCHA. La última vez que corrí 5 páginas de comerciantes Yelp al mismo tiempo, estable funcionando durante 6 horas sin romperse.
P: ¿Cuál es el paquete que conviene comprar?
R: Selección de pequeños proyectospaquete de pago por uso(A partir de 10GB de tráfico), la demanda a largo plazo sugiere la versión empresarial del paquete. En secreto, puede obtener 20% más tráfico informando "YELP2024″ al servicio de atención al cliente.
Unas palabras finales.
Demasiadas personas se han encontrado con la recopilación de datos de Yelp, el tiempo perdido en y mecanismo anti-crawl duro. De hecho, siempre y cuando el valor (configurar) buena política de proxy IP, junto con el procesamiento de datos razonable, esto es tan simple como comer y beber. Recuerde.Los servicios proxy estables son el alma de la ingeniería de datosNo gastes en herramientas básicas.

