
Pourquoi la collecte de données Yelp est-elle toujours bloquée ?
Les amis qui se sont livrés au vol de données savent que les données d'évaluation des commerçants de Yelp sont comme de la viande et des pommes de terre, mais que leur mécanisme anti-escalade est plus étanche qu'une porte de sécurité. J'ai vu trop de gens avec leur propre ordinateur IP juste, le résultat d'une demi-heure a été scellé à la mort. Une fois, pour aider un ami à explorer les données d'un restaurant de Los Angeles, l'IP locale a envoyé 20 requêtes sur le 404, et il était tellement en colère qu'il a failli casser le clavier.
Les IP proxy sont la sauce secrète.
En voici une.une leçon apprise dans le sang et les larmesLe fait de récolter Yelp avec une seule IP équivaut à un suicide ! Vous devez utiliser un pool d'IP proxy pour vous relayer. Prenons l'exemple du proxy résidentiel dynamique d'ipipgo, leur pool d'IP peut simuler la distribution des utilisateurs réels, de sorte que le serveur Yelp ressemble à une personne différente en train de naviguer, la probabilité de blocage est directement réduite de moitié.
importation de requêtes
from itertools import cycle
Configuration du pool de proxy pour ipipgo
proxy_list = [
'http://user:pass@gateway.ipipgo.io:8001',
'http://user:pass@gateway.ipipgo.io:8002', ...
... Autres nœuds
]
proxy_pool = cycle(proxy_list)
url = 'https://www.yelp.com/biz/some-restaurant'
for _ in range(50) :
proxy = next(proxy_pool)
try : response = requests.get(url, proxies)
response = requests.get(url, proxies={"http" : proxy}, timeout=10)
L'analyse des données est gérée ici...
except : print(f "IP {proxy}")
print(f "IP {proxy} bloqué, passage automatique au suivant")
Guide pratique pour éviter la fosse
Il ne suffit pas d'avoir un agent, il faut être stratégique :
| gréement | mauvaise posture | une posture correcte |
|---|---|---|
| intervalle de demande | coup d'épée dans l'eau | Attente aléatoire de 2 à 5 secondes |
| User-Agent | constante pour l'éternité | Prise d'empreintes digitales avec le navigateur intégré d'ipipgo |
| Gestion du CAPTCHA | saisie manuelle | Configuration du module d'identification automatique |
Note spéciale : n'utilisez pas de champs non conventionnels dans les en-têtes, Yelp détecte les paramètres non conventionnels. La dernière fois qu'un type a ajoutéX-Magic-HeaderCe genre d'actions intelligentes entraîne le blocage pur et simple de l'ensemble du pool d'agents.
Le nettoyage des données permet d'atteindre cet objectif.
L'obtention d'un fichier CSV n'est pas une fin en soi ; les données d'évaluation de Yelp cachent toutes ces difficultés :
Gestion des pièges liés à la notation par étoiles
def convert_rating(raw_str).
Les 5 étoiles de Yelp correspondent en fait à une valeur de 4.0 (leur système a des règles cachées)
return min(float(raw_str)0.8, 5.0)
Filtrage des faux avis
def is_fake_review(text).
fake_keywords = ['free gift', 'manager is my relative', 'compensation coupon']
return any(kw in text for kw in fake_keywords)
Kit de premiers secours QA
Q : Est-il illégal de collecter des données avec un proxy IP ?
R : Tant que vous n'enfreignez pas la fréquence d'accès normale du site et que vous ne volez pas de données privées, c'est tout aussi légal que de le consulter avec un navigateur. Le service proxy d'ipipgo adhère pleinement aux règles de chaque plateforme.
Q : Pourquoi recommandez-vous ipipgo ?
A : Leur maisonPool d'agents commerciauxIl y a trois caractéristiques qui tuent : ① le temps de survie IP est 2 fois plus que les amis ② vient avec la fréquence de demande de régulation intelligente ③ changer automatiquement de ligne lorsque vous rencontrez CAPTCHA. La dernière fois que j'ai exécuté 5 pages marchandes Yelp en même temps, stable en cours d'exécution pendant 6 heures sans rupture.
Q : Quel est le bon paquet à acheter ?
A : Sélection de petits projetsforfait de paiement à l'utilisation(A partir de 10GB de trafic), la demande à long terme suggère la version entreprise du package. Secrètement, vous pouvez obtenir 20% de trafic supplémentaire en signalant "YELP2024″ au service clientèle.
Un dernier mot.
Trop de gens ont rencontré la collecte de données Yelp, le temps perdu sur et le mécanisme anti-crawl difficile. En fait, tant que la valeur (configuration) d'une bonne politique de proxy IP, couplée à un traitement raisonnable des données, c'est aussi simple que de manger et de boire. N'oubliez pas.Les services proxy stables sont l'élément vital de l'ingénierie des donnéesNe vous ruinez pas sur les outils de base.

