
Le plus grand casse-tête pour les robots de microblogging : que faire du blocage des adresses IP ?
Le vieux fer à repasser engagé dans la collecte de données de microblogging sait que le plus écrasant est juste de courir pour être bloqué IP. Comme aller au supermarché pour acheter des collations, il suffit de prendre deux paquets de chips sur les gardes de sécurité ne sera pas autorisé à entrer. C'est le moment d'apprendre"Changement d'armureLe pool d'adresses IP proxy est votre arsenal de cent gilets différents.
Les pools de mandataires ne sont pas occasionnels, il faut les utiliser intelligemment.
Beaucoup de gens pensent que l'IP proxy est d'acheter un tas de hasard peut être utilisé sur la ligne, les résultats ont trouvé que certains IP même microblogging page de connexion ne peut pas ouvrir. Voici trois indicateurs à voir absolument :
| norme | ligne de passage | Conséquences du renversement |
|---|---|---|
| réactivité | <3 secondes | La collecte de données devient un jeu de tortue |
| Durée de conservation | >6 heures | Les changements fréquents sont épuisants |
| localisation géographique | Plusieurs provinces et villes dans le pays | Les connexions hors site sont soumises à des taxes exceptionnelles |
Il est important de citer des noms.Paquet résidentiel statique d'ipipgoJe l'ai testé et il peut se déguiser de manière stable en un véritable utilisateur dans différentes provinces du pays, et c'est moins cher que d'acheter du thé au lait à 35 dollars pour un IP pendant un mois entier.
Apprendre à construire un pool de proxy à la main
Commençons par le principe de base :Recyclage + élimination automatique. C'est comme manger des sushis rotatifs, où les adresses IP fraîches sont constamment réapprovisionnées et celles qui échouent sont immédiatement supprimées. Voici un exemple en Python :
importer des demandes
Récupérer le dernier pool d'adresses IP d'ipipgo
def get_ips() :
api_url = "https://api.ipipgo.com/fetch?type=static"
resp = requests.get(api_url).json()
return [f"{ip}:{port}" for ip in resp['data']]]
Vérifier si une IP est disponible
def check_ip(proxy) :
try.
test_url = "https://weibo.com"
resp = requests.get(test_url, proxies={'http':proxy}, timeout=5)
return True if 'tweet' in resp.text else False
else False
return False
Veillez à régler leTemps de sommeil aléatoireSi vous ne voulez pas que Twitter vous prenne pour un robot qui ne dort pas 24 heures sur 24, il faut que vous vous y mettiez à l'avance. Suggère d'ajouter un délai random.uniform(1,3) après chaque requête.
Gestion des pools de proxy pour les opérations de trolls
Ne pensez jamais que vous en avez fini avec la construction, voici deux conseils qui peuvent vous sauver la vie :
1. Changement de sang automatique à 3 heures du matinLe contrôle du microblogging est relativement laxiste à cette heure de la journée.
2. Système de notation de la qualité de la propriété intellectuelleLes résultats de l'enquête sont ensuite consignés dans un registre qui indique le nombre de succès et le taux de réponse pour chaque IP, et qui permet d'utiliser en priorité les IP ayant obtenu des résultats élevés :
ip_score = {
'122.96.1.1:8080' : {'success':18, 'speed':1.2},
'183.207.1.2:80' : {'success':3, 'speed':4.5}
}
Une session d'AQ à ne pas manquer pour les débutants
Q : Combien d'adresses IP faut-il prévoir pour le pool de proxy ?
R : Une collecte ordinaire de 200 à 300 adresses IP dynamiques est suffisante. Si vous effectuez une surveillance de l'opinion publique et des opérations aussi fréquentes, il est recommandé d'opter pour l'offre d'entreprise d'ipipgo, qui permet de doubler le nombre d'adresses concurrentes.
Q:Comment faire face à une IP bloquée de toute urgence ?
R : Faites immédiatement trois choses : 1. désactivez l'IP 2. vérifiez la fréquence des demandes 3. changez d'IP dans des zones géographiques différentes. Il est recommandé dans le code d'ajouter un mécanisme de fusion automatique, 3 échecs consécutifs déclenchant l'alarme.
Q : Choisir une adresse IP dynamique ou statique ?
R : collecte à court terme avec une IP dynamique (7,67 $/GB), surveillance à long terme avec une IP statique (35 $/IP). Il existe une opération peu glorieuse pour mélanger les deux : utiliser l'IP dynamique pour la collecte de données et l'IP statique pour la maintenance de l'état de connexion.
Quelques conseils pour éviter les pièges
Enfin, nous vous rappelons qu'il ne faut pas acheter ces IP de pacotille vendues à la livre. Avant de voir quelqu'un avec un proxy à 0,5 yuan / GB, le résultat de 40% IP que même Baidu ne peut pas ouvrir. ipipipgo a une fonction cachée - - ipipipgo a une fonction cachée - - ipipipgo a une fonction cachée - - ipipipgo a une fonction cachée.Facturation à la demandePour les débutants, qui ne sont pas sûrs de la quantité à utiliser, il n'y a pas de mal à utiliser la quantité nécessaire.
Si vous êtes confronté à une stratégie anti-escalade particulièrement délicate, vous pouvez demander à leur technicien de la mettre en œuvre !Des solutions sur mesureJe travaille sur un projet où nous devons changer d'IP et d'UA en même temps. La dernière fois que nous avons eu un projet qui nécessitait de changer d'IP et d'UA en même temps, ils ont fait une solution d'auto-association pour nous, ce qui nous a fait gagner un demi-mois de temps par rapport à ce que nous aurions dû faire nous-mêmes.

