
Quand il y a tellement de captchas que vous avez envie de laisser tomber votre clavier ? Essayez cette astuce sauvage
Les confrères engagés dans l'exploration de données savent que le plus ennuyeux n'est pas le mécanisme anti-escalade, mais le CAPTCHA qui surgit soudainement. En particulier, le fait de saisir 5 fois le site CAPTCHA en pop-up peut tout simplement rendre les gens fous. Aujourd'hui, nous vous apprenons à utiliser un proxy IP pour obtenir une "furtivité", de sorte que le site ne puisse pas vous reconnaître comme la même personne.
Pourquoi les CAPTCHAs vous poursuivent-ils toujours ?
Le site web est comme un inspecteur de la sécurité souterraine qui accorde une attention particulière aux personnes (IP) qui entrent et sortent fréquemment. Lorsque votre entreprise se trouve dans une telle situation :
- même adresse IP20 fois en 10 secondes.
- Visites régulières et soudaines à 3 heures du matin
- adresse IP de Mars à chaque fois.
À ce stade, la fenêtre CAPTCHA est plus ponctuelle qu'une vraie maman qui s'enregistre.
Bonne imitation d'une personne réelle.
Utiliser le pool d'adresses IP proxy d'ipipgo équivaut à changer de tenue à chaque visite :
importation de requêtes
from itertools import cycle
Pool de proxys à partir de ipipgo
proxies = [
"203.34.56.78:8000",
"112.89.128.90:8080",
"156.204.177.142:3128"
]
proxy_pool = cycle(proxies)
for page in range(1,50) : current_proxy = next(proxies)
current_proxy = next(proxy_pool)
try : resp = requests.get(url, proxies) = next(proxy_pool)
resp = requests.get(url, proxies={"http" : current_proxy})
print(f "Accès réussi à la page {page} avec {proxy_courant}")
except.
print("Cette IP est interdite, passez à la suivante maintenant !")
Remarquez dans le code que l'élémentcycleLes pools d'adresses IP d'ipipgo ont une fonction de commutation automatique, qui est l'art noir de la commutation des proxies.Des dizaines de millions de ressources IPIl est bloqué et coupe le suivant en quelques secondes, plus vite que le doigt de l'Exterminateur.
Quatre étapes pour se construire un corps invincible
1. aller sur le site de l'ipipgo pour l'obtenirPack d'essai gratuit(Inscrivez-vous et obtenez 100 gratuitement)
2) Importer le pool d'adresses IP dans le script du crawler.
3. définir des intervalles d'accès aléatoires (ne pas utiliser le rythme stupide de 2 secondes fixes)
4. changement automatique d'adresse IP en cas de CAPTCHA + outils de codage automatique avec
Cette solution a été testée pour réduire le nombre de déclenchements de CAPTCHA.80% et plusUn client effectuant des comparaisons de prix dans le domaine du commerce électronique a déclaré qu'il devait auparavant traiter manuellement 200 CAPTCHA par jour, mais qu'il n'en rencontrait plus qu'un tous les trois jours.
Kit de premiers secours QA
Q : L'agent libre ne peut-il pas être utilisé ?
R : Neuf IP gratuites sur dix sur le marché sont pitoyables, soit aussi lentes qu'un escargot, soit aussi longues que le site est noirci.Test de survieÉviter de perdre du temps avec des adresses IP non valides
Q : Les agents ralentissent-ils les choses ?
R : Il est très important de choisir le bon fournisseur de services ! ipipgo dispose d'un canal spécial à grande vitesse, les nœuds de latence mesurés <50ms représentent 92%, ce qui est plus stable que le haut débit domestique !
Q : Dois-je maintenir mon propre pool d'adresses IP ?
R : Pas du tout ! Leur API prend en chargeRejet automatique des adresses IP non validesIl est également réapprovisionné en PI fraîche tous les jours, ce qui vous permet de l'utiliser en toute tranquillité.
Pourquoi ipipgo ?
Les trois meilleurs aspects de cette maison :
- Simulation de comportement en situation réelleIl s'agit d'un ensemble d'informations sur la vie privée et la sécurité : adresses IP, empreintes digitales du navigateur, rythmes d'accès et une panoplie complète de déguisements.
- Mécanisme de non-réessaiChangement automatique de l'IP pour réessayer en cas de CAPTCHA, sans intervention manuelle
- Ciblage géographique précisLes données sont précises au niveau du district et du comté lorsque des adresses IP spécifiques à une ville sont requises.
La dernière fois qu'une équipe s'est occupée du contrôle des tickets, l'utilisation d'un proxy normal a toujours été reconnue et remplacée par celle d'ipipgo.numérotation mixte IP dynamiquePar la suite, le taux de réussite de l'acquisition des données est passé directement de 47% à 89%.
Conseils pour éviter les pièges
- N'écrivez pas d'IP mortes dans le code, utilisez l'acquisition dynamique.
- Ne pas dépasser le nombre d'utilisations par IP50 fois/jour
- Plus de sécurité grâce à la simulation du tracé de la souris en cas de CAPTCHA glissants
- Réduction appropriée de la fréquence des demandes pendant les premières heures de la matinée
Allez maintenant sur le site web d'ipipgo et inscrivez-vous avec le code promoCAPTCHA666On peut avoir une prostituée pour rien.500 essais d'agents PremiumLa première chose à faire est de se débarrasser du CAPTCHA, ce qui peut se faire en quelques minutes. La technologie n'est qu'une couche de papier à vitre. En la perçant, vous découvrirez que le contournement du CAPTCHA n'est pas aussi difficile qu'on l'imagine.

