
Vous apprendre à utiliser un proxy IP pour voler les données du forum.
Le vieux fer à repasser engagé dans la collecte de données sur les forums comprend que le mécanisme anti-escalade du site cible est plus difficile qu'une ordure. À l'heure actuelle, il est nécessaire de s'appuyer sur l'IP proxy pour mener la guérilla.L'objectif est d'empêcher le serveur de vous reconnaître comme la même personne.Les agents de sécurité ne peuvent pas se souvenir de votre visage si vous changez de vêtements tous les jours. En tant que châtaigne, c'est comme sortir avec des vêtements différents tous les jours pour que les agents de sécurité ne se souviennent pas de votre visage.
Pourquoi dois-je utiliser une adresse IP proxy ?
Si vous essayez de durcir le serveur directement, il ne faudra pas plus de 10 minutes pour que votre véritable IP soit mise sur liste noire. L'année dernière, un frère ne croyait pas au mal, utilisant sa propre bande passante pour demander continuellement un forum, et en conséquence, même son propre routeur ne pouvait pas se connecter au site. Si vous utilisez une IP proxy :
| prendre | Pas besoin d'agent. | par procuration |
|---|---|---|
| Fonctionnement d'un compte unique | 5 minutes Blocage de l'IP | Fonctionnement stable pendant 3 heures + |
| Fonctionnement multi-comptes | épi | Faire fonctionner 20 gilets en même temps |
Tutoriel de configuration pratique
Python est utilisé ici à titre d'exemple, mais d'autres langages fonctionnent à peu près de la même manière. Se concentrer surmandatairesComment régler ce paramètre :
demandes d'importation
Proxy dynamique depuis ipipgo (la documentation de leur interface est la plus claire)
proxy_api = "http://api.ipipgo.com/getproxy?format=json"
def get_froum_data(url).
Nouvelle IP pour chaque requête
proxies = {
"http" : proxy_api,
"https" : proxy_api
}
N'oubliez pas d'ajouter l'identifiant du navigateur
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36'}
response = requests.get(url, proxies=proxies, headers=headers)
return response.text
Délimiter l'objectif :N'écrivez jamais l'adresse IP du proxy dans le code ! Vous devez les obtenir dynamiquement. J'ai vu des gens mettre 200 IP dans un txt et les faire tourner, et le lendemain elles sont toutes mortes.
Éviter les voies sauvages du backcrawling
Il existe trois principaux ensembles de mesures anti-escalade pour les forums :
- Fréquence des demandes de détection (alarme si plus de 3 fois/seconde)
- Vérification de l'agent utilisateur (un problème avec l'en-tête par défaut de Python)
- Authentification de l'état de connexion (ne paniquez pas si vous rencontrez un CAPTCHA, que faire plus tard)
Recommandé pour ipipgoIP résidentielle statique de longue duréeJe ne suis pas sûr d'avoir déjà eu un problème avec ça, mais je suis sûr que je peux contourner la validation de 90%. La dernière collecte d'un forum automobile, avec proxy ordinaire 10 minutes pour être bloqué, changer son IP statique pendant trois jours consécutifs après la collecte sont très bien.
Pièges courants AQ
Q : Que dois-je faire si l'adresse IP de mon proxy est toujours dépassée ?
R : Quatre-vingt pour cent des personnes interrogées utilisent un pool de proxy indésirable. Il est recommandé de choisir ipipgo avecMesure de la vitesse en temps réelils mettent automatiquement hors service le nœud défaillant en arrière-plan.
Q : Comment puis-je traiter automatiquement les CAPTCHA lorsque je les rencontre ?
R : Ne soyez pas rigide ! Réduisez la fréquence de collecte à 5 secondes/temps et utilisez également une IP proxy avec des empreintes de navigateur. Le service personnalisé d'ipipgo peut lier des empreintes d'appareil fixes et le pro-test réduit efficacement le taux de déclenchement des CAPTCHA.
Q : Que dois-je faire si les données collectées sont brouillées ?
R : 80% n'est pas décompressé, le forum compresse les données afin d'économiser du trafic. Dans l'en-tête de la requête, ajoutezAcceptation du codage : gzip, deflateUtilisez ensuite la fonctionréponse.contenuDécodez-le vous-même.
La porte d'entrée pour choisir les services d'une agence
Les agents présents sur le marché sont très hétérogènes, ce qui vous permettra d'apprendre à les identifier :
- Regardez la vitesse de réponse : ping 10 fois de suite, des fluctuations de plus de 200 ms ne sont pas souhaitables.
- Mesure de la connectivité : 100 demandes consécutives avec un taux de réussite inférieur à 951 passages TP3T
- Vérifiez le type d'IP : vous devez utiliser des IP résidentielles !
C'est un domaine dans lequel ipipgo fait un meilleur travail, et leur homePositionnement au niveau de la villeCette fonction est très pratique. Par exemple, lorsque vous voulez collecter des forums régionaux, vous pouvez vous connecter avec l'IP de la ville locale, et l'administrateur ne pourra pas du tout voir qu'il s'agit d'un robot.
Enfin, rappelez que la collecte de données doit être conforme à l'accord sur les robots du site web. N'attrapez pas un forum à la poignée de la mort, fixez un intervalle de collecte raisonnable, nous devons faire un porteur de données décent ~ !

