
Comment fonctionne exactement l'API de recherche inversée de Google ?
Les personnes qui effectuent des recherches d'images savent que l'API officielle de Google est de plus en plus difficile à utiliser ces jours-ci. Tout d'abord.coût prohibitifPremièrement, vous êtes facturé 5 dollars par millier de demandes, et le traitement par lots peut faire saigner votre portefeuille. Deuxièmement.Les restrictions géographiques sont particulièrement sévèresL'interface n'est pas accessible aux IP de nombreux pays. Plus pitoyable encore est la limite de la demande, le document officiel est écrit de manière ambiguë, et vous donne souvent un blocage inexplicable.
Construire ses propres roues ou trouver des roues de remplacement ?
Un tableau de comparaison directe est plus intuitif :
| Type de programme | les coûts (de fabrication, de production, etc.) | stabilité | difficulté de maintenance |
|---|---|---|---|
| API officielle | ★★★★★ | ★★★★★ | Aucun entretien n'est nécessaire |
| Construisez votre propre crawler | ★ | ★ | Nécessite une maintenance spécifique |
| programme ipipgo | ★★★ | ★★★★ | Des scripts prêts à l'emploi sont disponibles |
Si vous construisez votre propre système, la stratégie anti-escalade peut à elle seule vous rendre chauve. Nous avons testé l'utilisation du systèmePool IP Proxy résidentielL'essentiel est d'utiliser des adresses IP qui sont suffisamment bonnes pour être utilisées par Google, mais pas trop bonnes pour être utilisées par Google. La clé est que la qualité de l'IP doit être assez difficile, n'utilisez pas ces IP, elles seront supprimées par Google en quelques minutes.
Les trois destins de la propriété intellectuelle par procuration
1. Pureté IPGoogle est particulièrement sensible aux adresses IP des centres de données, c'est pourquoi nous recommandons d'opter pour les adresses IP d'ipipgo.Haut débit à domicile IPLes adresses IP de leurs maisons sont toutes des réseaux résidentiels solides.
2. Fréquence de commutationPour ne pas être idiot et envoyer des requêtes sauvages avec une IP fixe, le backend d'ipipgo peut être configuré de la manière suivanteCommutation automatique en fonction du nombre de foisIl est recommandé de changer 1 IP toutes les 5 demandes.
3. localisation géographiqueLes adresses IP de la côte ouest des États-Unis sont privilégiées, et les serveurs de Google situés dans ces régions se sont révélés les plus réactifs. La base de données IP d'ipipgo est précise jusqu'au niveau de la ville, ce qui est essentiel.
Didacticiel de configuration pratique
Prenons l'exemple de Python, un processus en trois étapes :
La première étape consiste à installer les bibliothèques nécessaires
pip install requests-html ipipgo-sdk
Etape 2 Configurer le proxy
from ipipgo import RotateProxy
proxy = RotateProxy(
region='us-west', rotate_policy='per_request'
rotate_policy='per_request'
)
La troisième étape consiste à envoyer la demande
response = proxy.get('https://google.com/searchbyimage', params={
'image_url' : 'L'adresse de votre image'
})
Veillez à mettre en place uneintervalle de demandeIl est recommandé de choisir une durée comprise entre 3 et 5 secondes. Le SDK d'ipipgo est fourni avec la fonctionMécanisme de non-réessaiSi vous rencontrez l'erreur 429, il changera automatiquement d'IP et réessayera, ce qui est particulièrement agréable pour les débutants.
Foire aux questions QA
Q : Pourquoi le site est-il toujours bloqué avec une adresse IP proxy ?
R : Quatre-vingt-dix pour cent sont dus à la mauvaise qualité de l'IP. Ne soyez pas radins et utilisez une IP partagée. ipipgo'sPaquet IP exclusifLe taux de stabilité mesuré peut atteindre 98%, en particulier dans le cas de l'offre destinée aux entreprises, qui comporte une fonction de liste blanche des adresses IP.
Q : Quel volume de propriété intellectuelle dois-je préparer ?
R : Si l'on considère l'ampleur de la tâche, l'utilisateur moyen effectuant 500 recherches par jour, la préparation d'une rotation de 50 adresses IP est suffisante.20 adresses IP de haute qualitéEssai, suffisant pour tester le processus
Q : Qu'en est-il de la lenteur du temps de réponse ?
R : Vérifiez la localisation géographique de l'IP, donnez la priorité aux nœuds situés à Los Angeles et dans la Silicon Valley. Le backend ipipgo peut êtreContrôle de la vitesse,把高于200ms的IP自动过滤
Ne marchez pas sur ces nids-de-poule.
1. n'écrivez pas de clés d'API mortes dans votre code, le SDK d'ipipgo les prend en charge !Injection de variables d'environnementC'est sûr et pratique.
2. les URL d'images à ne pas oublierEncodage de l'URLen particulier les adresses comportant des symboles spéciaux
3) Ne soyez pas borné lorsque vous rencontrez un CAPTCHA, changez immédiatement de combinaison IP+UserAgent.
4. De 3 à 6 heures du matin (heure américaine), la stratégie anti-escalade de Google sera assouplie, l'efficacité du traitement par lots étant cette fois-ci plus élevée.
Enfin, en toute honnêteté, l'utilisation du bon outil peut permettre d'économiser 90% d'efforts. ipipgo'sForfait spécial pour la recherche inverséeAvec les ressources IP, les scripts prêts à l'emploi et la surveillance des erreurs, c'est beaucoup moins compliqué que de le faire soi-même. En particulier, leurDétection de l'état de santé de l'IPFonctionnalités permettant de détecter à l'avance les adresses IP potentiellement bloquées, ce qui est particulièrement important dans les projets à long terme.

