
Exemple concret : pourquoi se fait-on toujours éjecter de Yelp ?
La semaine dernière, un ami qui effectue des analyses dans le domaine de la restauration est venu me voir pour se plaindre, disant qu'il avait utilisé un script Python pour capturer les évaluations des commerçants sur Yelp, et que l'IP avait été bloquée juste après une demi-heure d'exécution. Il a changé son propre WiFi et a réessayé, mais même son hotspot mobile a souffert - maintenant, même les pages web normales s'affichent avec des CAPTCHA. Cette situation est trop fréquente, le mécanisme anti-escalade de Yelp est comme le garde de sécurité à l'entrée d'un restaurant.Spécialisé dans les éléments suspects qui apparaissent et disparaissent fréquemment..
Proxy IP : masquer le crawler
Si vous voulez passer inaperçu, vous devez apprendre à vous "déguiser", et nous parlons ici des IP proxy. Supposons que vous habitiez à l'origine dans le district de Chaoyang à Pékin (IP : 123.45.67.89), et que vous utilisiez le service proxy d'ipipgo pour changer aléatoirement d'adresse à chaque fois que vous visitez Yelp :
importation de requêtes
from itertools import cycle
proxies = ipipgo.get_proxy_pool() pour obtenir des pools d'IP dynamiques
proxy_cycler = cycle(proxies)
for page in range(1,101) : current_proxy = next(proxy_cycler)
current_proxy = next(proxy_cycler)
response = requests.get(
f "https://www.yelp.com/search?page={page}",
proxies={"http" : current_proxy, "https" : current_proxy}
)
Traitement de la logique des données...
C'est comme siJe change de vêtements chaque fois que je vais au restaurant.Le serveur ne peut tout simplement pas reconnaître la même personne. Notez que pour choisir une IP résidentielle, l'IP de la chambre est facile à reconnaître - nous recommandons ici le vrai pool proxy résidentiel d'ipipgo, dont le taux de réussite mesuré pendant la nuit peut atteindre 92%.
Un guide pratique pour éviter les pièges : trois détails clés
Nombreux sont ceux qui pensent que l'utilisation de proxys ne pose pas de problème, mais le résultat est toujours planté. Ne pas prêter attention à ces trois détails équivaut à une perte de temps :
| questions | guérir |
|---|---|
| Fréquence excessive des demandes | Contrôle à 3-5 secondes par session, peut accélérer jusqu'à 1 seconde au milieu de la nuit |
| User-Agent est trop faux | Rotation réelle de l'UA avec le navigateur |
| État de connexion anormal | Conserver la même IP pendant au moins 30 minutes (ipipgo prend en charge le maintien de session) |
Rappel spécial :N'écrivez pas de proxies morts dans votre code! Nous suggérons d'utiliser l'API d'ipipgo pour l'obtenir dynamiquement, ils mettent automatiquement à jour le pool d'IP toutes les 5 minutes, ce qui est beaucoup moins compliqué que de le maintenir soi-même.
Processus de configuration que même un novice peut comprendre
En Python, par exemple, le déploiement se fait en cinq étapes :
- Créez un compte ipipgo pour recevoir un pack d'essai
- Générer une clé API dans la console
- Installer le SDK officiel : pip install ipipgo-client
- Initialiser le pool d'agents (voir l'exemple de code ci-dessus)
- Réglage des délais aléatoires + commutation UA
En ce qui concerne les réglages du délai, n'utilisez jamais de pause fixe, mais des pauses aléatoires, comme le ferait une personne réelle :
import random
Importation du temps
Une stratégie d'attente plus naturelle
def human_delay().
base = 3 if 8<datetime.now().hour<23 else 1.5
return base random.uniform(0.8, 1.2)
time.sleep(délai_humain())
Foire aux questions QA
Q : Puis-je encore utiliser mon adresse IP bloquée ?
R : Il est recommandé de laisser refroidir pendant 24 heures. La capacité du pool d'adresses IP d'ipipgo est suffisamment importante (plus de 20 millions), et il est plus efficace de découper directement de nouvelles adresses IP.
Q : Dois-je maintenir mon propre serveur proxy ?
R : Ce n'est pas nécessaire ! ipipgo fournit un accès API prêt à l'emploi et prend en charge les tentatives automatiques de réessai et de basculement.
Q : Pourquoi recommandez-vous l'IP résidentiel dynamique ?
R : Le segment IP de la salle des serveurs est depuis longtemps marqué par les grandes plates-formes, et l'IP résidentielle est plus proche du comportement réel des utilisateurs, ce qui est également l'avantage principal d'ipipgo !
Q : Que dois-je faire si je rencontre un CAPTCHA ?
R : Il s'agit d'un signal de mise à niveau anti-escalade, il faut immédiatement réduire la fréquence et remplacer l'IP. ipipgo'sPaquet d'agents High StashFonction intégrée de contournement du CAPTCHA, permettant de contacter le service clientèle pour ouvrir un compte.
Enfin, une petite précision : le cycle de mise à jour des évaluations de Yelp est de 72 heures, et il est recommandé d'effectuer des captures trois fois par semaine. Il n'est pas nécessaire de garder un œil sur la course 24 heures sur 24, ce qui est coûteux en ressources et facile à bloquer. Utilisez un bon outil proxy, la collecte de données devrait être si simple.

