
I. Pourquoi fait-on toujours chanter les gens qui grimpent sur Twitter ? Il vous manque peut-être cet outil magique
Récemment, beaucoup de vieux ferrailleurs qui font de l'analyse de données se demandent, en utilisant des scripts Python pour crawler les données Twitter, comment déplacer les données de Twitter.Blocage IPComment ? C'est la même chose que lorsque nous allons au supermarché et que nous essayons les aliments - si vous attrapez le même comptoir, qui le garde de sécurité va-t-il regarder si ce n'est pas vous ?
Le mécanisme anti-escalade des voleurs de Twitter, les mêmes demandes fréquentes d'IP ont immédiatement déclenché une alarme. C'est le moment d'utiliser leIP proxyCet artefact d'habillage, à chaque visite, permet de changer un "gilet". C'est comme jouer à un jeu et ouvrir un petit numéro, être bloqué à tout moment pour couper un nouveau numéro et ensuite jouer.
Deuxièmement, nous vous apprendrons à utiliser le proxy IP pour accéder aux données de Twitter.
Si l'on prend l'exemple de la bibliothèque de requêtes de Python, l'ajout d'une IP proxy revient à revêtir un crawler d'une cape d'invisibilité :
demandes d'importation
proxies = {
'http' : 'http://username:password@proxy.ipipgo.io:8888',
'https' : 'http://username:password@proxy.ipipgo.io:8888'
}
response = requests.get('https://twitter.com/api/data', proxies=proxies)
Notez que vous devez remplacer le nom d'utilisateur et le mot de passe par ceux que vous avez utilisés dans le fichieripipgoCompte enregistré, leurs canaux proxy sont cryptés, ce qui est bien plus sûr que de se promener nu.
Troisièmement, quels sont les principaux indicateurs à prendre en compte lors du choix d'une IP proxy ?
Les services proxy disponibles sur le marché sont inégaux et ces paramètres doivent être parfaitement respectés :
| norme | la ligne ou la note de passage (dans un examen) | données ipipgo |
|---|---|---|
| réactivité | <500ms | 230 ms en moyenne |
| taux de disponibilité | >95% | 99.2% |
| Taille du pool IP | >500,000 | 8 millions + |
Mention spéciale pour ipipgo.IP résidentielle dynamiqueTwitter ne peut tout simplement pas dire s'il s'agit d'une machine ou d'une personne réelle.
Quatrièmement, évitez ces fosses, l'espérance de vie des chenilles a triplé.
Une leçon de sang et de larmes pour les conducteurs âgés :
1) N'utilisez pas de proxies gratuits ! Ces IP sont sur la liste noire de Twitter depuis longtemps, les utiliser revient donc à donner sa tête.
2. la fréquence des demandesagir comme un être humainLa meilleure chose à faire est de définir un délai aléatoire de 2 à 5 secondes.
3. n'oubliez pas de modifier régulièrement le User-Agent et n'utilisez pas toujours les mêmes empreintes de navigateur
4) Ne vous battez pas avec le CAPTCHA, utilisez celui d'ipipgocommutation automatiqueFonction changer d'IP et réessayer
Cinquièmement, l'AQ proprement dite (le blanc doit être vu)
Q : Comment puis-je changer manuellement d'agent à chaque fois ?
A : Soutien d'ipipgoExtraction automatique APIL'écriture d'une tâche chronométrée permet le remplacement automatique de l'IP, exemple de code :
import time
from ipipgo_client import IPPool ipipgo official SDK
pool = IPPool(api_key="your_key")
def get_fresh_ip().
return pool.get_proxy(types=['SOCKS5'])
Q : Pourquoi suis-je toujours bloqué après avoir utilisé un proxy ?
R : Vérifiez trois choses : ① si l'IP est très anonyme ② s'il y a une fuite d'en-tête de requête ③ si elle déclenche la détection de comportement. Il est recommandé d'utiliser le logiciel ipipgoMode de détection de la profondeurL'IP est automatiquement filtrée pour les IP figurant sur la liste noire.
Q : Que dois-je faire si je ralentis soudainement en rampant ?
R : 80% des IP actuels sont limités en vitesse, dans l'arrière-plan de l'ipipgo, il faut mettre en place le système de contrôle de la qualité.seuil de vitesseRéglez-le à 200 ms, et il coupera automatiquement la nouvelle IP lorsqu'elle dépassera la limite de temps.
Sixièmement, ces opérations sordides vous permettent de faire plus avec moins.
1. avec l'outil de modification de l'empreinte digitale du navigateur, recommandé undetected-chromedriver
2. l'utilisation des données clésPropriété intellectuelle exclusive pour ipipgoStabilité comparable à celle de votre propre haut débit
3. mettre en place un mécanisme de réessai en cas d'échec, ajouter une boucle while dans le code pour réessayer automatiquement
4. données de 3 à 6 heures du matin, à cette période de l'année, la stratégie anti-escalade est relativement souple
Enfin, je voudrais dire une chose : les crawlers ne sont pas aveugles, ils doivent être attentifs à la stratégie. Utilisez les bons outils (comme ipipgo) + une configuration raisonnable, afin de glaner des données à long terme. Ne vous préoccupez pas des problèmes, plus la configuration est détaillée au début, plus la maintenance est préoccupante par la suite. Si vous ne savez rien, vous pouvez aller sur le site web d'ipipgo pour trouver le service client, ils ont un technicien en ligne 24 heures sur 24, ce qui est beaucoup plus rapide que de vérifier les documents.

