
Le CAPTCHA se fissure ? Découvrez d'abord cette fenêtre
Ces outils gratuits de reconnaissance des CAPTCHA sur l'internet, pour dire les choses clairement, c'est du traitement d'image + de l'apprentissage automatique. C'est comme apprendre à un enfant de trois ans à reconnaître des chiffres, vous devez lui montrer 100 images avec des chiffres. Les projets open source tels que Tesseract, qui traitent des CAPTCHA numériques simples, rencontrent des déformations à l'aveugle.
Dans ce cas, les adresses IP proxy ne représentent que la moitié de la bataille.
Système CAPTCHA hardcore avec votre propre IP ? Attendez qu'il soit bloqué dans une passoire !Proxy résidentiel dynamique pour ipipgoIl vous permet de changer de "visage" à chaque fois que vous faites une demande, ce qui revient à jouer à l'opéra du Sichuan, où le serveur ne peut pas comprendre d'où vous venez vraiment. Voici les données réelles :
| Type d'agent | taux de réussite de la reconnaissance | probabilité d'interdiction |
|---|---|---|
| Pas d'agent | 38% | 72% |
| Agent général | 55% | 41% |
| ipipgo Résidentiel dynamique | 82% | 9% |
Comment construire un CAPTCHA killer ?
Voici un marronnier de Python, n'oubliez pas d'installer ces bibliothèques au préalable :
pip install requests opencv-python pytesseract
Le code de base est écrit de cette manière (n'oubliez pas de changer pour votre propre compte proxy ipipgo) :
importer des demandes
from PIL import Image
proxies = {
'http' : 'http://用户名:密码@gateway.ipipgo.com:9021', 'https' : 'http://用户名:密码@gateway.ipipgo.com:9021'
'https' : 'https://用户名:密码@gateway.ipipgo.com:9021'
}
resp = requests.get('captcha address', proxies=proxies)
with open('captcha.jpg', 'wb') as f.
f.write(resp.content)
Faire des niveaux de gris avec OpenCV
img = cv2.imread('captcha.jpg', 0)
Récupérez le code de reconnaissance Tesseract ici...
Guide pour éviter les pièges : cinq erreurs courantes commises par les novices
1. mourir pour un IP :Utilisez la fonction de commutation automatique d'ipipgo, n'attendez pas d'être bloqué pour basculer.
2) Sauter le prétraitement de l'image :Pas de réduction du bruit, pas de binarisation, la reconnaissance directe est aveugle.
3. l'utilisation de pools de proxy gratuits :Ces agents publics ont été occultés par le système CAPTCHA il y a longtemps.
4. ignorer les paramètres de délai d'attente :Proposé pour fonctionner avec la fonction de commutation rapide en 5 secondes d'ipipgo
5. CAPTCHA complexe et rigide :Si vous rencontrez Google reCAPTCHA, vous devez le contourner.
Cas pratique : un site de commerce électronique avec connexion automatique
J'ai récemment aidé un ami à obtenir un dossier, en utilisant le modèle d'auto-apprentissage d'ipipgo (UK Residential IP +), le taux de reconnaissance est passé de 23% à 68%. Le point clé est le suivant :
AutoSwitch après chaque échec
from ipipgo import AutoSwitchProxy
proxy = AutoSwitchProxy(region='uk')
headers = proxy.add_headers()
Lorsque la reconnaissance captcha échoue
if 'captcha_error' in response.text : proxy.rotate_ip()
proxy.rotate_ip() secondes pour une nouvelle IP
Cinq questions à poser absolument
Q : Dois-je utiliser un proxy payant ?
R : Neuf agents libres sur dix échouent, les nouveaux utilisateurs d'ipipgo disposent de 2G de trafic gratuit, ce qui est suffisant pour tester l'eau !
Q : Comment choisir la zone de l'agent ?
R : Examinez l'emplacement du serveur web cible, la station nationale avec l'IP de la province, la station d'outre-mer est recommandée pour choisir la résidence aux États-Unis / en Allemagne.
Q : Qu'est-ce qui rend ipipgo meilleur que les autres ?
R : Leur pool d'adresses IP sera "auto-réparateur", supprimant automatiquement les adresses IP bloquées, afin de maintenir la disponibilité de 95% ou plus !
Q : Que dois-je faire si je rencontre un captcha coulissant ?
R : Un simple curseur peut être simulé avec Selenium, la complexité de la proposition sur la plateforme de codage, ne le faites pas vous-même !
Q : Pourquoi mon taux de reconnaissance augmente-t-il et diminue-t-il ?
R : Vérifiez la qualité de l'IP, utilisez l'API d'ipipgo pour vérifier l'IP actuelle.Durée de conservationrépondre en chantantcote de crédit
Enfin : la reconnaissance des CAPTCHA n'est pas un moyen sérieux, il est recommandé de l'utiliser pour tester son propre système. Si vous souhaitez vraiment l'utiliser à des fins commerciales, il est préférable de passer par l'interface normale, afin de ne pas vous mettre en difficulté. ipipgo dispose de techniciens qui peuvent vous conseiller sur les solutions de mise en conformité, ne vous contentez pas de faire n'importe quoi.

