
Google Scholar brouille les données ? Un guide pratique pour éviter les pièges des adresses IP proxy
Les universitaires savent que Google Scholar est un véritable trésor. Mais s'ils veulent vraiment sélectionner les données de leur thèse par lots, l'API officielle est depuis longtemps fermée au public. À l'heure actuelle, nous devons montrer nos compétences, et de nombreux passionnés de technologie choisissent d'écrire leur propre crawler. Mais le problème -Votre IP sera bloquée en quelques minutes.Je ne suis pas sûr que vous puissiez le faire ! Aujourd'hui, nous allons voir comment utiliser les IP proxy pour glaner des données de manière sûre et efficace.
Pourquoi votre crawler ne vit-il pas plus de trois minutes ?
Le mécanisme anti-crawl de Google n'est pas végétarien, il s'agit principalement de ces trois indicateurs :
1. la fréquence des demandes provenant d'une même adresse IP
2. si l'en-tête de la demande ressemble à une personne réelle
3. les niveaux d'authentification JavaScript
En particulier la première, la maison moyenne à large bande est une IP publique, une demande folle, une limite de flux légère, un blocage important. Le mois dernier, un doctorant m'a dit qu'il avait écrit un script pour commencer à fonctionner à 2 heures du matin, mais que le résultat était que l'IP était bloquée à 3 heures du matin, et que la thèse était presque ouverte.
Les adresses IP proxy sont la clé de la vie.
Le principe de cette chose est aussi simple queConfiez la livraison de vos colis à différents coursiersDynamic Residential Proxy de ipipgo est le meilleur, pourquoi ? Regardez ce tableau comparatif :
| typologie | taux de réussite | les coûts (de fabrication, de production, etc.) | Scénarios applicables |
|---|---|---|---|
| Centre de données IP | baisser (la tête) | à bon marché | Acquisition simple des données |
| IP résidentielle | votre (honorifique) | bien situé | Collecte de données académiques |
| IP mobile | suprême | plus cher | une montée en arrière difficile (par exemple à ski) |
L'agent résidentiel d'ipipgo a été testé jusqu'au sol.L'authentification n'est pas déclenchée par 500 demandes consécutives. La clé est que leur pool d'IP est mis à jour quotidiennement avec 20% et qu'il n'est pas facile à étiqueter.
Le code actuel s'écrit comme suit
En utilisant Python comme exemple, n'oubliez pas deChangement aléatoire de User-Agentrépondre en chantantIntervalle de demande de contrôle: :
importation de requêtes
from itertools import cycle
proxies = cycle(ipipgo.get_proxy_list()) obtenir des pools d'IP dynamiques
headers_list = [
{'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0)...'} ,
{'User-Agent' : 'Mozilla/5.0 (Macintosh ; Intel...'}
]
for page in range(1, 100) : proxy = next(proxies).
proxy = next(proxies)
try : response = requests.get()
response = requests.get(
'https://scholar.google.com/scholar', proxies={"http" : proxy, "https" : proxy}
proxies={"http" : proxy, "https" : proxy},
headers=random.choice(headers_list), timeout=10
timeout=10
)
Traitement des données ici...
time.sleep(random.uniform(2,5)) random s'arrête
except Exception as e.
print(f "Flipped with {proxy}, switch to the next one !")
Scène de renversement courante AQ
Q : Pourquoi suis-je toujours bloqué après avoir utilisé un proxy ?
R : trois possibilités : 1. la qualité de l'IP n'est pas bonne 2. l'en-tête de la requête n'a pas changé de manière aléatoire 3. la vitesse est trop rapide. Il est recommandé d'utiliser le logiciel de rotation intelligent d'ipipgo, qui permet de contrôler la fréquence des requêtes.
Q:Quel forfait dois-je choisir si je veux collecter 100 000 données ?
R : Adressez-vous directement au service clientèle d'ipipgo pour personnaliser le programme ; l'utilisation universitaire bénéficie de remises exclusives. Pour une utilisation personnelle, il suffit de payer 199 mensualités. Pour une utilisation en entreprise, il est recommandé d'acheter des forfaits simultanés.
Q : S'agit-il d'une infraction ?
R : L'utilisation à des fins académiques est acceptable tant qu'elle n'est pas commerciale ou malveillante. N'oubliez pas d'ajouter les en-têtesReferer" : "https://scholar.google.com/Plus sûr.
Dites la vérité.
Ne croyez pas à ces proxies gratuits, neuf sur dix sont des pires. J'ai déjà vu des gens utiliser des IP gratuites et, par conséquent, accéder à toutes les données des sites d'hameçonnage. ipipgo coûte de l'argent, mais le pool d'IP a une durée de vie limitée.La période d'enquête sur le logement dans la vie réelleet peuvent également être facturés au volume. Surtout avec leur fonction de routage intelligent, qui évite automatiquement l'IP d'être, l'économie n'est pas négligeable.
Dernier rappel : n'écrivez pas d'adresses IP mortes dans votre code ! Il est préférable d'utiliser l'API qu'ils fournissent pour obtenir le dernier proxy en temps réel, de sorte que même si une certaine IP est bloquée, elle peut être automatiquement changée. Ce n'est pas facile d'être un universitaire, alors grimpez et chérissez-le.

