
当爬虫撞上反爬 你的代码需要隐身衣
Les amis engagés dans la collecte de données comprennent que le mécanisme anti-escalade du site est maintenant plus strict que les portes des cellules. Il y a deux jours, j'ai utilisé Python pour écrire un simple crawler, les résultats n'ont duré qu'une demi-heure pour recevoir le message d'avertissement de l'opérateur, l'IP a été directement mise sur liste noire. À l'heure actuelle, il est nécessaire deIP proxyCette "cape d'invisibilité" empêche le serveur de reconnaître votre véritable identité.
Pour citer un scénario réel : la collecte de données sur les prix d'une plateforme de commerce électronique, les 50 premières pages de la main lisse, tourner à 51 pages a soudainement fait apparaître le CAPTCHA. À ce moment-là, si vous apportezipipgo Proxy résidentiel dynamiqueLe taux de déclenchement des CAPTCHA peut chuter de 70% ou plus en passant automatiquement d'une adresse IP de ville à l'autre, de la même manière que l'on passe à un nouveau login de téléphone portable à chaque fois que l'on visite un site.
Crawlers recommandés avec plus de mille étoiles GitHub
Ces 5 frameworks open source sont recommandés pour être sauvegardés dans les favoris pour manger la poussière (mais il vaut mieux ne pas manger la poussière) :
| nom du cadre | Scénario | Soutien aux agents |
|---|---|---|
| Ferraille | Exploration de données d'entreprise | Prise en charge native de la mise en commun des agents |
| PySpider | Tâches de surveillance en temps réel | Nécessite un logiciel intermédiaire personnalisé |
| Crawlee | Capture du rendu du navigateur | Rotation automatique des agents |
| Colly | pile technologique Golang | extension enfichable |
| Portia | Visualisation sans code | Les paramètres de l'agent doivent être configurés |
La cape d'invisibilité dans Scrapy
Prenons l'exemple de Scrapy, le plus couramment utilisé, trois étapes pour accéder au proxy ipipgo :
Première étape :Ajoutez un middleware personnalisé à middlewares.py, le code clé se résume à ces lignes :
def process_request(self, request, spider).
request.meta['proxy'] = 'http://username:password@gateway.ipipgo.com:端口'
Deuxième étape :Pour intégrer l'API fournie par ipipgo dans l'intergiciel de téléchargement, il est recommandé de définir le paramètre5 secondes de commutation automatiqueIP, afin que le taux de réussite de la collecte soit supérieur à 98%.
Troisième étape :N'oubliez pas d'ouvrir le mécanisme de réessai dans les paramètres, le code d'état 403 change automatiquement l'IP de réessai, cette combinaison de coups de poing, le système anti-escalade est fondamentalement inutile.
Pourquoi les conducteurs âgés choisissent-ils ipipgo ?
Après avoir utilisé 7 ou 8 services proxy, j'ai finalement choisi ipipgo pour trois raisons :
1. Véritable IP résidentielleContrairement à certains fournisseurs de services qui s'amusent à utiliser les adresses IP des salles de serveurs, les véritables adresses IP domestiques à large bande doivent être utilisées pour collecter les évaluations du commerce électronique.
2. Ville de votre choixLorsque vous devez collecter des données régionales, vous pouvez indiquer l'adresse IP du comté et de la ville.
3. Le trafic n'est pas gaspilléFacturation basée sur l'utilisation réelle, plus besoin de se faire mal au portefeuille quand on utilise des données au milieu de la nuit.
Questions fréquemment posées Trousse de premiers secours
Q : Que dois-je faire si j'utilise un proxy et que je suis toujours bloqué ?
R : Vérifiez trois points : ① si l'en-tête de la demande contient les empreintes digitales du navigateur ② si la fréquence d'accès est trop élevée ③ confirmez le type d'IP du proxy (service de numérotation mixte d'ipipgo recommandé).
Q:Que dois-je faire si je dois collecter des données sur des sites web étrangers ?
R : Directement à l'arrière-plan de l'ipipgo switch overseas nodes, faire attention à choisir et à l'IP du serveur web dans la même région, le délai peut être contrôlé dans les 200ms.
Q : Les proxys gratuits fonctionnent-ils ?
R : Le test à court terme est possible, le projet officiel ne l'est pas ! Nous avons mis le pied dans la fosse : l'agent libre 30% avec un cheval de Troie, 50% avec un délai de réponse, le reste 20% a été retiré par les principaux sites dès le noir.
Un dernier élément de connaissance froide : avec le système ipipgoProxy résidentiel dynamique + Chrome Headless ModeLe taux de réussite de la collecte est 4 fois supérieur à celui de la solution API pure. La prochaine fois que vous vous ferez écraser par l'anti-crawl, essayez cette combinaison de bombe royale, et n'oubliez pas de revenir me remercier.

