
Vous avez mal à la tête ? Essayez ces deux astuces pour Google Trends
Récemment, de nombreux amis spécialistes du commerce électronique transfrontalier se sont plaints que les données de Google Trends fonctionnaient parfois, parfois pas, qu'elles étaient lentes à charger comme une tortue ou qu'elles ne pouvaient tout simplement pas être affichées. En fait, pour parler franchement, c'est l'environnement de votre réseau qui est surveillé. Ne soyez pas pressé de gronder, nous sommes directement sur les marchandises sèches aujourd'hui, vous apprendre à utiliser proxy IP + moyens techniques de stabilité pour s'engager dans les données.
Pourquoi votre crawler se retourne-t-il toujours ?
Le mécanisme anti-crawl de Google Trends est beaucoup plus farfelu qu'il n'y paraît. Il prend en compte trois éléments principaux :Fréquence des requêtes, adresse IP, empreinte du navigateurLa première chose à faire est d'obtenir la même adresse IP que celle que vous utilisez. En particulier la partie IP, si vous utilisez la même brosse à reluire IP, les minutes pour vous donner une liste noire. J'ai eu un stagiaire qui ne m'a pas cru et qui a utilisé le réseau de son bureau pour crawler les données, ce qui a eu pour résultat de bloquer le segment IP de toute l'entreprise pendant trois jours.
Il est temps de s'appuyer sur les IP proxy pourmener une guérilla. Nous vous recommandons d'utiliser le proxy résidentiel d'ipipgo, qui dispose de dizaines de millions d'IP de réseaux domestiques réels dans son pool d'IP et qui modifie chaque requête de manière aléatoire, ce qui est nettement plus fiable que ces IP de salle de serveur pourries.
La bonne façon d'ouvrir l'API officielle
Commençons par le chemin le plus sérieux : Google a en effet ouvert l'applicationAPI officielle.. Lorsque vous créez un compte de développeur, vous pouvez consulter gratuitement vos données cinq fois par jour. Il y a cependant deux pièges à éviter :
1. la carte de crédit doit être liée (mais sans frais)
2. l'accès direct à l'IP domestique signalera des erreurs 403
C'est là que le proxy résidentiel statique d'ipipgo est utile. Ajoutez ces lignes de configuration au code :
proxies = {
"http" : "http://用户名:密码@gateway.ipipgo.com:端口",
"https" : "http://用户名:密码@gateway.ipipgo.com:端口"
}
response = requests.get(api_url, proxies=proxies)
L'un des avantages de l'utilisation de leur proxy est que la durée de survie de l'IP peut aller jusqu'à 24 heures, ce qui est particulièrement adapté aux appels API qui doivent maintenir la session. J'ai testé le fonctionnement continu pendant une semaine, le taux de réussite reste supérieur à 98%.
Programme de recherche intensive (à utiliser avec précaution)
Si l'API est trop restrictive, vous devrez utiliser un crawler. Voici un plan de configuration dont j'ai personnellement testé l'efficacité :
| artefact | Points de configuration |
|---|---|
| Bibliothèque Python | selenium + undetected_chromedriver |
| Paramètres du navigateur | 禁用WebRTC、关闭GPU代理ip |
| Configuration du proxy | Changement aléatoire de l'IP mobile d'ipipgo par demande |
Je vais me concentrer sur les paramètres du proxy. Il est recommandé d'utiliser le paquet proxy éphémère d'ipipgo, chaque fois que vous ouvrez une nouvelle page pour changer l'IP. Leur vitesse de réponse API vole, en moins de 500 millisecondes pour obtenir une nouvelle IP, complètement en phase avec le rythme du crawler.
Foire aux questions QA
Q : Ne puis-je pas utiliser un proxy gratuit ?
R : Frère, vous essayez de savoir, 10 IP gratuites 9 ont échoué, l'autre peut être marquée comme IP malveillante. ipipgo est certes payant, mais 1 yuan permet d'acheter 500 requêtes, ce n'est vraiment pas cher.
Q : Que dois-je faire si le système indique toujours que l'emplacement géographique ne correspond pas ?
R : En arrière-plan d'ipipgo, sélectionnez la fonction "positionnement précis". Par exemple, si vous souhaitez vérifier les données américaines, verrouillez l'adresse IP résidentielle de la ville de New York, de sorte que Google Trends affiche automatiquement les résultats locaux.
Q : Que se passe-t-il si l'extraction des données est trop lente ?
R : ouvrez le multithreading ah ! Avec le paquet concurrentiel d'ipipgo, il est recommandé de contrôler 5 à 10 threads, la vitesse peut être augmentée de 3 fois sans pour autant être bloquée.
Dites la vérité.
Pour ce qui est de la collecte de données, il ne faut jamais penser à s'épargner des ennuis. Certains de mes amis ont acheté un proxy bon marché, et en conséquence, leurs comptes ont été bloqués, des erreurs de données, et d'autres pertes. ipipgo Je l'utilise depuis six mois, et la meilleure chose à ce sujet est que leurs comptes sont bloqués.Panneau de contrôle en temps réelVous pouvez voir à tout moment l'utilisation des IP, les IP qui sont bloquées et remplacées automatiquement.
Enfin, même si vous utilisez un proxy, vous devez contrôler la fréquence des demandes. Il est recommandé de se référer à ce tempo :
- Demandes de renseignements généraux : 3 à 5 par minute
- Acquisition à haute fréquence : en conjonction avec 10 rotations IP, pas plus de 20 fois par minute.
Conformément à ce programme de s'engager, la garantie que vous pouvez régulièrement saisir la laine de données de Google Trends. Ce que vous ne comprenez pas peut aller directement sur le site officiel du service clientèle d'ipipgo, leur petit frère technique deux heures du matin sont en ligne, plus fiable que certains des grands fabricants de robots service à la clientèle.

