
Pour tous les passionnés de données, voici le moyen le plus sûr de vous faire remarquer sur Twitter !
Récemment, beaucoup d'amis qui font de l'analyse des médias sociaux se sont plaints de ce que la collecte de données Twitter par la méthode normale est toujours limitée. Je ne le sais que trop bien ! L'année dernière, lors d'une analyse concurrentielle, j'ai utilisé mon propre script de crawler pendant trois jours consécutifs, ce qui m'a valu de voir mon adresse IP directement fermée dans une petite salle noire. Plus tard, j'ai découvert que l'utilisation de la rotation d'IP par proxy est la voie royale, et aujourd'hui je vais partager cet ensemble de moyens sauvages avec vous.
Pourquoi vos crawlers sont-ils toujours en panne ?
De nombreux débutants ont tendance à tomber dans ces pièges :
1. Demandes d'IP unique à haute fréquenceLe consommateur doit être conscient de l'importance de ce qu'il fait : c'est comme si l'on essayait de manger encore et encore dans un supermarché sans payer... les vendeurs ne vous regardent-ils pas à chaque instant ?
2. Trop grande concentration de segments IPLes IP commençant par 192.168 frappent aux portes, et n'importe quel idiot sait qu'il s'agit des mêmes personnes.
3. Il ne simule pas une personne réelle.Les demandes mécaniques chronométrées, même pas la simulation de la trajectoire de la souris
L'année dernière, un client effectuant une surveillance de l'opinion publique a utilisé 10 adresses IP fixes pour collecter des données en rotation, et toutes ont été interdites le troisième jour. Il a ensuite changé pour utiliser les adresses IP résidentielles dynamiques de notre ipipgo avec des intervalles de demande aléatoires, et a fonctionné régulièrement pendant deux mois sans interruption.
Comment choisir un proxy IP fiable ?
| typologie | Scénarios applicables | index recommandé |
|---|---|---|
| Centre de données IP | Collecte à court terme et à petite échelle | ★★★ |
| IP résidentielle statique | Identité fixe requise | ★★★★★ |
| IP résidentielle dynamique | Collecte à grande échelle et à long terme | ★★★★★ |
C'est là que le bât blesse.IP résidentielle dynamiqueLes adresses IP sont exactement les mêmes que celles utilisées par les utilisateurs réels pour accéder à l'internet. Comme pour ipipgo, il y a plus de 20 millions d'IP dans le pool, qui sont automatiquement changées à chaque fois qu'une requête est faite, de sorte que la plateforme ne peut pas dire s'il s'agit d'une personne réelle ou d'une machine. La dernière fois, une équipe a surveillé Netflix en utilisant son forfait 1C (5 000 IP par jour) pour effectuer des comparaisons de données entre régions, et ce pendant trois mois.
Configuration pratique de l'API
Prenons l'exemple de Python, avec la bibliothèque requests + le service proxy ipipgo :
importation de requêtes
from itertools import cycle
proxies = cycle([
"http://user:pass@gateway.ipipgo.io:8000", "http://user:pass@gateway.ipipgo.io:8000", "http://user:pass@gateway.ipipgo.io:8000", "http://user:pass@gateway.ipipgo.io:8000", "http://user:pass@gateway.ipipgo.io:8000", "http://user:pass@gateway.ipipgo.io:8000
"http://user:pass@gateway.ipipgo.io:8001",
Ajouter d'autres ports...
])
def get_tweets(keyword).
current_proxy = next(proxies)
try : current_proxy = next(proxies)
res = requests.get(
url="https://api.twitter.com/2/tweets/search/recent",
params={"query" : keyword}, proxies={"http" : current_proxies")
proxies={"http" : current_proxy}, timeout=10
timeout=10
)
return res.json()
except.
print(f"{current_proxy} est bloqué, bascule automatiquement sur le nœud suivant")
return get_tweets(keyword)
centre:记得设置随机(0.5-3秒),别用固定sleep时间。建议把User-Agent也做成轮询池,我们ipipgo后台有现成的UA生成器可以直接薅。
Ancien conducteur QA Time
Q : Pourquoi le site est-il toujours bloqué après l'utilisation d'un proxy ?
R : Quatre-vingt-dix pour cent du problème réside dans la qualité de l'adresse IP. Ne soyez pas radin et n'utilisez pas de proxies gratuits, ces IP sont depuis longtemps considérées comme pourries. Il est recommandé d'utiliser ipipgo avec un mécanisme de nettoyage automatique, leur système éliminera les IP de la liste noire en temps réel.
Q : Quel progiciel dois-je choisir pour capturer 100 000 niveaux de données ?
R : Directement sur la version personnalisée d'ipipgo enterprise, supportant le nombre de concurrences sans limite. La dernière fois, une entreprise 4A a investi dans des projets à l'étranger, utilisant son canal exclusif pour recueillir 500 000 tweets par jour, le nettoyage des données se faisant directement dans le système de BI.
Q : Que dois-je faire si l'API renvoie une erreur 429 ?
R : Il s'agit du déclenchement d'une limite de débit. Trois étapes : 1. vérifier la fréquence des demandes 2. changer les autres nœuds géographiques d'ipipgo 3. ajouter la logique "retry-after" à l'en-tête de la demande.
Un dernier conseil : maintenant que le contrôle des vents de toutes les plateformes a été mis à jour, il ne suffit pas de changer l'IP. Il est recommandé de faire correspondre l'ipipgoEmulation de l'empreinte digitale du navigateuren dissimulant tous ces paramètres de canvas, webgl, ce qui constitue le véritable mode furtif.

