
Est-il difficile d'obtenir de vraies critiques ? Essayez cette astuce.
Les amis qui veulent choisir les avis des commerçants sur Yelp pour faire une analyse de marché, neuf sur dix ont mis en place un mécanisme anti-crawl. La semaine dernière, des amis transfrontaliers et moi-même avons fait une tournée, et nous venons de saisir 200 données sur un compte qui a été bloqué, mais nous avons également reçu une lettre d'avertissement de la plate-forme. En fait, le problème réside dans l'IP - des demandes répétées avec l'IP de leur propre ordinateur, pas de sceau vous scellez qui ?
Les IP proxy normales ne fonctionnent pas bien non plus. Yelp est dessus.Centre de données IPSceau. Nous avons testé qu'en moyenne 30 requêtes déclencheront un CAPTCHA si l'accès se fait par l'IP d'une salle de serveur. C'est à ce moment-là que leProxy résidentiel IPLe taux de réussite double immédiatement, en particulier avec les adresses IP locales à large bande des États-Unis.
| Type IP | taux de réussite | Durée moyenne de survie |
|---|---|---|
| IP privé | <10% | 20 minutes. |
| Agents de salle de serveurs | 30% | 2 heures |
| Agent résidentiel (recommandé) | >85% | 12 heures + |
Apprendre à jumeler les agents à la main
Démontrée ici en Python, la logique est similaire dans d'autres langages. La clé est deUne IP différente pour chaque demandeIl ne s'agit pas d'attraper un IP et de s'en plaindre.
import requests
from ipipgo import RotateProxy Il s'agit de la bibliothèque clé.
proxy_pool = RotateProxy(region='us', type='residential')
for page in range(1, 11) : proxies = proxy_pool.
proxies = proxy_pool.get_proxy()
try.
resp = requests.get(
'https://www.yelp.com/biz/xxx/review_feed', proxies={'http' : 'http' : proxies
proxies={'http' : proxies, 'https' : proxies}, timeout=10
timeout=10
)
Traitement du code de données...
print(f "La page {page} a été explorée avec succès ! IP actuelle : {proxies}")
except Exception as e.
print(f "Cette IP est bloquée, passage automatique à la suivante : {proxies}")
proxy_pool.ban_proxy(proxies) Marque l'IP comme invalide.
Regardez ça.ipipgo.RotateProxyModule, une bibliothèque de planification intelligente que nous avons encapsulée avec nos propres services. Elle exclut automatiquement les adresses IP non valides et peut également filtrer les adresses IP en fonction de l'État. Par exemple, lorsqu'il s'agit de recueillir exclusivement des avis sur des restaurants new-yorkais, il est plus réaliste d'utiliser des adresses IP locales.
Un guide pour éviter la fosse (l'expérience du sang et des larmes)
1. Ne vous tuez pas en demandant la fréquence.Même si vous utilisez une adresse IP résidentielle, 10 requêtes en 1 seconde seront toujours exposées. Suggérer un délai aléatoire de 2 à 5 secondes, au milieu de la nuit, peut être ajusté plus rapidement !
2. Agents utilisateurs en rotationLe site web de Python : Préparez 10 navigateurs majeurs pour une utilisation aléatoire de l'AU, n'effacez pas l'en-tête de requête de Python !
3. L'identification CAPTCHA permet de revenir en arrièreNe soyez pas un dur à cuire lorsque vous rencontrez un CAPTCHA, enregistrez le lien et traitez-le manuellement plus tard !
4. Ne stockez pas de données localement.Il est recommandé de transférer directement vers le nuage, car l'accès au service de stockage avec une adresse IP résidentielle est facilement exposé.
Pourquoi ipipgo ?
Il existe de nombreux services proxy sur le marché, mais peu d'entre eux sont spécialisés dans les IP résidentielles et sont fiables. Notre équipe les a testés :
– La période d'enquête sur le logement dans la vie réelleLes biscuits sont fabriqués à partir de véritables produits américains à large bande, avec leur propre histoire !
– Garantie de succèsLes clients ne doivent pas être plus de 3 par IP le même jour afin d'éviter les abus.
– Positionnement au niveau de la villeLes évaluations spécifiques à une ville nécessitent une correspondance précise avec les adresses IP locales.
– Assistance technique 7×24La dernière fois que j'ai eu un problème à 3 heures du matin, le service clientèle m'a donné une solution en 10 minutes !
Foire aux questions QA
Q : Serai-je poursuivi par Yelp ?
R : Il n'est pas illégal de saisir des données publiques à une fréquence raisonnable, mais ne saisissez pas d'informations privées sur les utilisateurs. Il est recommandé de ne pas dépasser 5 000 entrées par jour.
Q : Pourquoi l'IP résidentielle est-elle plus chère ?
R : L'entretien est coûteux ! Il faut signer des accords avec d'innombrables ménages et veiller à la qualité du réseau. Mais avec le modèle de facturation horaire d'ipipgo, il est plus rentable de capturer des scénarios de données.
Q : Puis-je encore utiliser mon adresse IP bloquée ?
R : Notre pool d'IP est mis à jour quotidiennement avec 30%, et les IP marquées seront réfrigérées pendant 7 jours. Il est recommandé d'utiliser le module de remplacement automatique pour ne pas perdre de temps.
Q : Dois-je maintenir mon propre pool d'adresses IP ?
R : Pas du tout ! L'API d'ipipgo attribue automatiquement les IP disponibles et peut être configurée pour exclure des ASN spécifiques (par exemple, en identifiant l'opérateur du centre de données).
Une dernière remarque : n'utilisez pas de proxies gratuits au rabais ! Quelqu'un a déjà utilisé un pool d'adresses IP signalé et s'est retrouvé avec une perte totale de comptes. Des choses professionnelles pour des outils professionnels, gagnez du temps pour analyser quelques mauvaises critiques supplémentaires, peut-être pourrez-vous trouver le marché de l'océan bleu ?

