
Quand les actionnaires rencontrent les anti-crawlers : utilisations alternatives des procurations résidentielles
Récemment, un ami spécialiste de la négociation quantitative s'est plaint à moi que le programme crawler qu'il avait écrit était toujours bloqué par les sites financiers, et il a essayé toutes sortes de moyens de camouflage, mais même sa propre bande passante a été bloquée pendant trois jours. Cela me rappelle l'expérience que j'ai vécue l'année dernière en aidant des organisations de capital-investissement à collecter des données...L'accès aux données financières est essentiellement une guerre d'attaque et de défense.
Pourquoi votre crawler se fait-il toujours tirer dessus ?
De nombreux nouveaux venus ignoreront le mécanisme anti-escalade du site. Pour donner un exemple concret : un forum boursier a fixé le seuil de"Blocage automatique pour plus de 20 visites par minute à partir de la même adresse IP".Les règles. L'accès en masse avec l'IP d'une salle de serveur revient à brandir sa carte d'identité et à se rendre au guichet d'une banque pour accéder à 1 dollar, encore et encore, si vous ne vous bloquez pas, qui le fera ?
| Type d'agent | taux de réussite | indice de risque |
|---|---|---|
| Salle de serveurs IP | 38% | ★★★★★ |
| IP résidentielle | 91% | ★★★ |
Pratique : saisie des commentaires sur les actions avec ipipgo
En prenant l'exemple d'une communauté boursière bien connue, nous obtenons une collecte stable grâce au proxy résidentiel d'ipipgo. L'accent est mis surSimuler le comportement d'un utilisateur réel: :
Importation de requêtes
from time import sleep
import random
proxies = {
'http' : 'http://user:pass@gateway.ipipgo.com:9021', 'https' : 'http://user:pass@gateway.ipipgo.com:9021'
'https' : 'http://user:pass@gateway.ipipgo.com:9021'
}
headers = {
User-Agent' : 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36'
}
for page in range(1,100) : url = f'{page}'.
url = f'https://stock.site/comments?page={page}'
response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
Attendre aléatoirement 3 à 8 secondes
sleep(random.uniform(3,8))
Traitement des données...
Conseil clé :
- Modifier le User-Agent par requête (ne pas utiliser la bibliothèque fake_useragent)
- Ajoutez des délais aléatoires à votre code, n'utilisez pas de valeurs de sommeil fixes !
- Ne vous heurtez pas au CAPTCHA, changez d'adresse IP et continuez.
Guide pour éviter les pièges : ces détails tuent les gens
1. N'utilisez pas de requêtes.L'objet session maintient une connexion TCP et est facilement reconnaissable.
2. le pool de proxy doit être suffisamment important : il est recommandé d'utiliser le proxy résidentiel dynamique d'ipipgo, dont le pool d'IP est automatiquement mis à jour toutes les heures !
3. prêter attention aux empreintes digitales de l'en-tête de la requête : en particulier, les paramètres Accept-Language et Cookie
4. traiter les pièges de redirection : certains sites renvoient délibérément des sauts 302 pour détecter les robots d'indexation
QA : Les problèmes que vous rencontrez
Q : Que dois-je faire si l'agent est trop lent ?
A : Préférence pour les ipipgo'sPaquet d'agents résidentiels à haut débitLeurs nœuds sont spécialement optimisés pour la vitesse de connexion TCP, et le temps de latence mesuré peut être contrôlé dans les 200 ms.
Q : Que se passe-t-il si je dois collecter des données sur les stocks à l'étranger ?
R : ipipgo prend en charge les IP résidentielles dans plus de 100 pays à travers le monde, n'oubliez pas de définir la région du pays cible en arrière-plan. Il est possible de consulter des données fondamentales plus détaillées en visitant l'adresse IP locale à haut débit.
Q : On vous demande toujours de vérifier votre numéro de téléphone portable ?
R : Cela signifie que vos caractéristiques comportementales sont reconnues. Essayez d'ajouter la simulation du mouvement de la souris au crawler, ou passez à l'application ipipgoLiaison des empreintes digitales de l'appareilFonction.
écrire à la fin
L'année dernière, une société de capital-investissement s'est vu réclamer 2 millions de dollars par un site web parce qu'elle avait été capturée en utilisant l'adresse IP d'une salle de serveur. Il est recommandé aux débutants d'acheter des services proxy prêts à l'emploi directement auprès d'ipipgo, leur site d'origine"Réessai en cas d'échec + commutation automatique".Les mécanismes permettent d'économiser beaucoup de travail. N'oubliez pas que de bons outils ne représentent que la moitié de la bataille, l'autre moitié dépendant de votre volonté de faire semblant d'être "normal".

