
De nos jours, la collecte de données ne peut se faire sans quelques tours de passe-passe.
Buddy depuis peu n'est pas toujours confronté à ce genre de merde ? Un travail acharné pour écrire le script du crawler, courir sur le hiatus, le site anti-escalade et anti-voleur comme. Cette fois, nous avons dû sacrifier la bannière IP du proxy, mais le marché de ces jeux conventionnels est depuis longtemps considéré comme mort. Aujourd'hui, nous allons vous apprendre à utiliser des techniques alternatives de collecte de données pour sortir du lot.
Les trois points les plus dangereux de la propriété intellectuelle traditionnelle par procuration
Commençons par quelques nids-de-poule dans lesquels les hommes ont marché :
1. l'utilisation répétée du même IP, le site directement apposé sur votre sceau
2) La qualité des adresses IP dans le pool de serveurs mandataires publics est comparable au pompage d'une boîte aveugle.
3. le code d'authentification dynamique a sauté à l'instant, la tension artérielle est montée en flèche directement
Il est temps de penser différemment et de donner une nouvelle signification aux données alternatives.
Acquisition alternative de données Triple Axe
Conseil n° 1 : Mashups IP
别可着一个IP,用ipipgo的动态住宅代理,每次请求随机换马甲。他们的API能自动吐出新鲜IP,像这样整:
demandes d'importation
à partir d'un choix d'importation aléatoire
proxies_pool = ipipgo.get_dynamic_proxies() appeler leur API ici
current_proxy = {'http' : choice(proxies_pool)}
resp = requests.get('destination url', proxies=current_proxy)
Conseil n° 2 : Demander un transfert d'empreintes digitales
Il ne suffit pas de changer l'IP, il faut aussi changer l'en-tête de la requête, les cookies et toutes ces caractéristiques. Prenez un marron : Conseil n° 3 : demander un rythme pour faire souffler le vent dans les voiles Récemment, un frère s'est lancé dans la comparaison des prix du commerce électronique, avec l'agent résidentiel statique d'ipipgo pour surveiller les prix. Au début, 300 fois par heure pour attraper l'ancien bloqué, puis ajusté : Q : Que dois-je faire si mon proxy IP est lent comme un escargot ? Q : Comment puis-je savoir si une adresse IP proxy est une vraie résidence ? Q : Quel forfait dois-je choisir si mon budget est limité ? La collecte de données est comme une guérilla, il faut sans cesse changer de tactique. ipipgo le plus parfumé de leur maison est de pouvoir personnaliser le programme en privé, la dernière fois qu'il y a eu un questionnaire à l'étranger, spécifiquement pour obtenir un mélange d'agent dynamique résidentiel + centre de données du programme, le taux de détection est passé directement de 30% à 3%. Enfin, je voudrais vous rappeler qu'il faut être prudent dans l'utilisation des IP proxy. Ne plantez pas votre serveur web, ce n'est pas une bonne idée d'avoir un procès. L'usage raisonnable des outils, pour que l'eau puisse couler, n'est-ce pas ?
headers = {
'User-Agent' : random_ua_generator(),
'Accept-Language' : random_lang(),
'Referer' : fake_referer()
}
Ne soyez pas à l'heure comme un robot, ajoutez des délais aléatoires. Faites-le flotter entre 0,5 et 3 secondes, afin que le site ne puisse pas comprendre la routine.Guide pratique pour éviter la fosse
questions
prescription
Changement d'adresse IP trop fréquent
Passer à une IP statique à longue durée de vie, une seule demande d'IP pas plus de 200 fois par jour
Détection de rendu JavaScript
Navigateur sans tête supérieur + marionnettiste
Caractérisation du trafic
Activer le protocole d'obscurcissement des lignes louées TK pour ipipgo
séance de questions-réponses
R : Essayez la ligne transfrontalière d'ipipgo, la latence de leur nœud de protocole S5 peut être ramenée à moins de 200 ms. Si vous pensez toujours que c'est trop lent, passez directement à une IP statique dédiée et achetez un canal exclusif pour 35 yuans.
R : Cette méthode permet de détecter :
1) Vérifier les informations whois pour voir l'opérateur attribué
2. visitez whatismyipaddress.com pour voir le type d'IP
3. tester la durée de survie de l'IP, l'IP résidentielle réelle ne survivra pas plus de 24 heures.
R : Le volume de données de l'escalade de la sélection de la version standard dynamique, 7 plus de 1G suffisant pour construire un mois. Pour une utilisation stable à long terme, il est préférable d'opter pour un système résidentiel statique direct par mois, bien que le prix unitaire soit plus élevé, mais il n'est pas facile de le remplacer.Dites quelque chose qui vient du cœur.

