
I. Pourquoi les données financières sont-elles toujours bloquées ? Essayez ce joker
Les confrères qui se sont engagés dans le crawling des cotations boursières savent que ces sites financiers sont plus difficiles à crawler que les machines à sous. La semaine dernière, un ami négociateur quantitatif et moi-même nous sommes plaints du fait qu'en utilisant leur propre haut débit pour capturer des données, il suffit de courir deux jours pour que l'IP soit bloquée à mort. En fait, il s'agit d'une véritable guérilla : si vous prenez une adresse IP fixe, ils vous donneront une minute pour retirer la liste noire.
Cette fois-ci, vous devez utiliser le proxy IP pour jouer la couverture, comme si à chaque fois vous sortiez pour changer de vêtements. Par exemple, vous voulez capturer une plateforme d'échange de matières premières, avec l'agent résidentiel dynamique d'ipipgo, à chaque demande d'un utilisateur réel de changer l'adresse IP, le site ne peut tout simplement pas dire si vous êtes une personne réelle ou une machine.
Deuxièmement, le choix de l'agent est comme acheter de la nourriture pour voir les plats sous le repas
Il existe toutes sortes de types d'agents sur le marché, je vais donc tracer une ligne dans le sable :
Agents résidentiels dynamiquesVoici une liste des éléments les plus importants à prendre en compte lors de la recherche d'un nouveau siège pour votre entreprise: : la capacité à capturer des informations à haute fréquence, telles que le suivi des taux de change en temps réel. La solution Dynamic Residential Enterprise Edition d'ipipgo, qui coûte plus de 9 dollars pour un débit de 1G, peut automatiquement assurer la rotation du pool IP, plutôt que d'aller sur le marché pour réduire le prix d'une bonne affaire !
import requests
from ipipgo import get_proxy En supposant qu'il s'agit de leur SDK
proxy = get_proxy(type='dynamic')
resp = requests.get('Un site web financier', proxies={'http' : proxy})
IP résidentielle statiquePour le suivi de données à long terme, comme le suivi d'une action pendant trois mois, il est recommandé d'utiliser une IP fixe de 35 $/mois, qui survit pendant une longue période et n'est pas susceptible de déclencher des règles anti-franchissement.
Troisièmement, la main pour vous apprendre à construire un système anti-blocage
Voici un cas concret à partager : une équipe chargée de l'analyse des marchés à terme a mis au point un système de commutation intelligent en utilisant l'API d'ipipgo. Voici comment ils s'y prennent :
1. acquérir 10 nouvelles adresses IP par minute grâce aux API
2. détection automatique de la disponibilité de l'IP (uniquement pour les vitesses de réponse <800ms)
3. définir le mécanisme de réessai en cas d'échec, trois échecs consécutifs entraînant automatiquement le basculement vers l'IP
N'oubliez pas d'ajouter des délais aléatoires dans le code, n'envoyez pas de demandes comme une mitrailleuse. Il est recommandé de faire des pauses aléatoires entre 0,8 et 2 secondes pour simuler le rythme d'une opération humaine réelle.
IV. lignes directrices pour l'apurement des questions fréquemment posées
Q : Que dois-je faire si je rencontre toujours le CAPTCHA ?
R : Changez l'agent utilisateur dans l'en-tête de la requête pour une version courante du navigateur, utilisez le proxy dédié TK d'ipipgo, ce segment IP jouit d'une excellente réputation !
Q : Que dois-je faire si je dois saisir simultanément des données nationales et étrangères ?
R : Leur ligne spécialisée transfrontalière peut être acheminée automatiquement, par exemple en envoyant les données sur le pétrole brut américain au nœud des Amériques et les données sur les contrats à terme nationaux aux nœuds locaux.
Q : Que puis-je faire pour éviter que les retards dans les données n'affectent les décisions commerciales ?
R : Sélectionnez l'IP statique exclusive + le déploiement du serveur en nuage, la latence mesurée peut être contrôlée dans les 200 ms, plus rapidement que beaucoup d'APP de courtage !
V. Ne marchez pas sur ces nids-de-poule
1. 别图便宜买IP,轻则数据不准,重则吃官司
2. les agents dynamiques doivent régulièrement effacer les cookies, faute de quoi le site peut être suivi grâce aux empreintes digitales du navigateur
3. l'erreur de certificat SSL n'est pas grave, il se peut que le protocole du proxy ne soit pas apparié (HTTP/HTTPS doivent être configurés séparément)
En fin de compte, je recommande le service d'ipipgo, le meilleur qu'il utilise est celui-ciRoutage intelligentFonction. Par exemple, si vous voulez capturer les données de la Bourse des métaux de Londres, il attribuera automatiquement l'IP résidentielle locale au Royaume-Uni, de sorte que vous n'ayez pas à changer de nœud vous-même. Le prix du paquet est également réel, en particulier la version standard résidentielle dynamique, plus de 7 yuans pour un débit de 1G suffisant pour capturer des dizaines de milliers de demandes, moins cher que de boire du thé au lait.
J'ai vu récemment qu'ils en avaient un nouveau sur leur site webAPI SERPLa première chose à savoir est que vous pouvez accéder directement aux données de la lettre d'information financière du moteur de recherche. Les frères dans le besoin peuvent aller jeter un coup d'œil, mais n'oubliez pas d'attraper les données avec retenue, ne faites pas tomber leurs serveurs.

