
Quelle est la partie la plus difficile de l'exploration de Yelp ? Découvrez pourquoi vous êtes bloqué.
Engagé dans la collecte de données de la vieille ferraille comprendre, Yelp mécanisme anti-escalade est plus stricte que la mère pro de vérifier le téléphone mobile. Les données d'évaluation, en particulier, sont directement liées aux intérêts fondamentaux de la plateforme. L'année dernière, un ami a utilisé sa propre bande passante pour grimper pendant trois jours d'affilée.L'IP est directement occultéMême les comptes habituels sont bloqués, une sacrée leçon apprise.
Voici une idée fausse à corriger : de nombreuses personnes pensent qu'il suffit de contrôler la fréquence des demandes. En fait, Yelp tient compte d'une combinaison des éléments suivantsAdresse IP, empreintes digitales de l'appareil, traces comportementalesTrois dimensions. Par exemple, si vous visitez un site à partir d'une adresse IP de New York le matin et que vous passez à une adresse IP de Los Angeles l'après-midi, ce type de transience temporelle et spatiale ne manquera pas de déclencher une alerte.
Exemples de code typiques
import requests
for page in range(1,100) : response = requests.get(f'{page}')
response = requests.get(f'https://www.yelp.com/biz/xxx/review_feed?page={page}') Les sauts de page continus seront bloqués !
Vivez et apprenez les trois principaux ensembles d'adresses IP de proxy
Nous allons vous apprendre quelques scénarios éprouvés, en utilisant le service d'ipipgo comme exemple :
Trope 1 : Le principe de l'adéquation territoriale
Par exemple, si vous souhaitez explorer les avis sur les restaurants chinois de San Francisco, utilisez exclusivement des adresses IP résidentielles californiennes. ipipgo a l'avantage de pouvoirPrécision du positionnement au niveau de la villeContrairement à certains proxys qui apparaissent en Californie et qui sont en fait des IP de salles de serveurs au Texas.
Ensemble 2 : Stratégie de rotation dynamique
Il est recommandé de changer d'adresse IP tous les 20 commentaires collectés, mais il y a deux choses à garder à l'esprit :
1. la nouvelle IP doit appartenir au même opérateur que l'IP précédente (par exemple, les deux Comcast)
2. le temps de remplacement doit simuler la vitesse de lecture d'une personne réelle, ne pas passer à l'ensemble des secondes de la confiture.
| procédure | fausse démonstration | une posture correcte |
|---|---|---|
| Fréquence de remplacement des IP | Fixe toutes les 5 minutes | Changement aléatoire de 3 à 8 minutes |
| Paramètres de l'en-tête de la demande | Toujours utiliser la même UA | Empreintes digitales pour différents appareils à chaque fois que vous les transportez |
Ensemble III : Mécanismes de non-recours
Préparez un script de surveillance qui s'exécute automatiquement lorsqu'il rencontre un code d'état 403 :
1. pause immédiate de 30 à 90 secondes
2. changer l'IP sur liste blanche d'ipipgo (il est recommandé d'utiliser l'IP fixe de l'offre entreprise)
3. effacer les cookies locaux et se reconnecter
Session d'AQ : Ne marchez pas sur ces nids-de-poule
Q : J'ai manifestement utilisé une adresse IP proxy, mais j'ai quand même été bloqué.
R : Vérifier si l'IP porteContamination de l'en-tête HOSTCertains proxys bon marché modifient les en-têtes HTTP. Utilisez l'interface de détection d'ipipgo pour le vérifier :
curl --proxy http://user:pass@ipipgo-proxy:port https://ip.ipipgo.com/header-check
Q : Que dois-je faire si la vitesse de collecte est comparable à celle d'un escargot ?
R : N'utilisez pas de proxies gratuits ! L'offre commerciale d'ipipgo prend en charge les services suivantstunnels simultanésLe test peut fonctionner jusqu'à une bande passante de 500 Mbps. N'oubliez pas d'ajouter "Connection : keep-alive" dans l'en-tête de la requête pour multiplexer la liaison.
Q : Comment les risques juridiques sont-ils évités ?
R : Concentrez-vous ! Bien qu'il ne soit pas illégal de collecter des données publiques, il convient d'être prudent :
1. ne pas toucher aux données privées des utilisateurs (numéros de téléphone, contenu des messages privés)
2. réglage de l'analyseur robots.txt pour éviter les répertoires interdits
3. des recommandations commerciales pour l'achat d'ipipgoPaquets de conformitéservice
Dites la vérité.
Les fournisseurs de services proxy sur le marché sont hétéroclites, et certains petits ateliers disposent de pools d'adresses IP avec des centaines d'adresses à utiliser en permanence. J'en ai déjà testé un, et 18 IP sur 20 figurent sur la liste noire de Yelp. ipipgo a un avantage exclusif.Mise à jour en temps réel des données thermiquesL'équipe chargée de l'exploration met à jour quotidiennement les segments IP disponibles.
Le système de compte de Yelp est lié à l'IP, à l'appareil et au comportement, et une fois qu'il est anormal, il sera immédiatement sanctionné par un carton rouge. Il est recommandé d'utiliser le mode visiteur pour collecter, si vous devez vous connecter, n'oubliez pas de lier chaque compte !IP indépendant + environnement de navigation indépendant.

