
A. Pourquoi votre crawler est-il toujours bloqué ? C'est ce qui manque !
Les frères engagés dans les crawlers comprennent que le dur travail d'écriture de scripts s'arrête soudainement, selon toute vraisemblance, l'IP était le site noirci. Il y a deux jours, j'ai aidé un ami à surveiller les prix d'un certain commerce électronique, les tests locaux sont bons, un environnement réel déclenche immédiatement un anti-climbing - il s'agit d'un cas typique où l'on ne porte pas de "gilet" et où l'on court à poil.
C'est le moment d'offrirpool d'IP proxyCe grand tueur. Comme s'il s'agissait d'un jeu de poulets, les autres sont des cibles fixes, vous tirez à chaque fois sur un endroit différent, le système anti-escalade du site ne peut tout simplement pas sentir la loi. Comme nous utilisons ipipgo, leur pool IP est préparé avec des millions d'agents résidentiels, avec le changement d'inquiétude spéciale.
Deuxièmement, comment choisir un pool d'adresses IP proxy ? Rappelez-vous ces 3 lois d'airain
Il existe toutes sortes de services d'agences sur le marché, mais il n'y en a vraiment pas beaucoup de fiables. Vous devez être prudent lorsque vous en choisissez une :
1. Le temps de survie doit être suffisamment court: Il est préférable de changer d'IP pour chaque demande, ne vous inquiétez pas de ce trafic. Les pools dynamiques d'ipipgo peuvent le faire !Commutation automatique sur demandeC'est beaucoup plus efficace que les changements de demi-heure.
2. Le type d'IP devrait être correctL'IP du centre de données peut être utilisée pour créer une station d'information normale, mais pour escalader la grande plate-forme, il faut utiliser l'IP résidentielle. Avant qu'un copain ne soit bon marché avec une IP partagée, le résultat est juste l'escalade de 200 pages sur la section bloquée dans son intégralité.
Exemple d'appel à ipipgo en Python
import requêtes
proxy = {
'http' : 'http://用户名:密码@gateway.ipipgo.com:9020', 'https' : 'http://用户名:密码@gateway.ipipgo.com:9020'
'https' : 'http://用户名:密码@gateway.ipipgo.com:9020'
}
response = requests.get('destination URL', proxies=proxy, timeout=10)
Troisièmement, la main pour vous apprendre à construire des pools d'agents intelligents
光有IP还不够,得会调度。这里分享个实战方案:
① Enregistrer les IP renvoyées par l'API d'ipipgo dans Redis, en n'oubliant pas de taper chacune d'entre elles.Horodatage de survie
② avant chaque demande de test de connectivité, n'attendez pas la moitié de l'ascension pour constater que l'IP est bloqué !
③ En cas de code de réponse 403/429, retirez immédiatement la PI noire, laissez-la refroidir pendant au moins 2 heures, puis utilisez-la.
④ Ne soyez pas stupide et utilisez les IP dans l'ordre, n'oubliez pas d'ajouter unsondage aléatoireMécanisme. Des tests antérieurs ont montré que les visites régulières ont un taux de blocage plus de trois fois supérieur à celui des visites aléatoires.
Quatrièmement, le fait de marcher sur une fosse innombrable résume les compétences en matière de préservation de la vie.
Citez quelques endroits où les nouveaux venus ont tendance à tomber amoureux :
- Ne laissez jamais le véritable User-Agent dans l'en-tête, utilisez la bibliothèque d'empreintes digitales du navigateur fournie par ipipgo pour le générer de manière aléatoire.
- Contrôler la fréquence des demandes d'autorisationfugace (d'un temps de passage rapide)rythme qui imite le fonctionnement humain. Par exemple, l'hibernation aléatoire pendant 2 à 8 secondes après 5 visites consécutives.
- Ne vous débattez pas lorsque vous rencontrez le CAPTCHA, changez immédiatement d'IP et réessayez. La vitesse de réponse de l'API d'ipipgo est suffisamment rapide, en gros dans les 300 ms pour effectuer le changement.
V. 5 questions que vous voudrez certainement poser
Q : Que dois-je faire si j'utilise une adresse IP proxy et que je suis toujours bloqué ?
R : Vérifiez trois points : 1. si chaque demande change d'IP 2. si l'en-tête de la demande est aléatoire 3. si l'intervalle d'accès est régulier. Il est recommandé de passer directement à la fonction de routage intelligent d'ipipgo pour éviter automatiquement les IP à risque.
Q : La lenteur de la vitesse IP du proxy affecte-t-elle l'efficacité ?
R : Cela dépend de la qualité de la ligne du fournisseur. La ligne BGP d'ipipgo a une latence mesurée d'environ 80 ms, soit plus du double de celle de nombreux autres fournisseurs. Si vous pensez toujours que c'est trop lent, vous pouvez activer leur service decanal à grande vitesse
Q : Dois-je maintenir mon propre pool d'adresses IP ?
R : Ce n'est pas du tout nécessaire ! L'arrière-plan d'ipipgo élimine automatiquement les adresses IP non valides et en réapprovisionne de nouvelles chaque jour. Notre projet fonctionne depuis plus de six mois et nous n'avons jamais nettoyé le pool manuellement.
Sixièmement, pourquoi se spécialiser dans les agents si la plateforme globale est fiable ?
Il y a des spécialités dans les arts, les gars ! Les vendeurs vétérans comme ipipgo meurent d'envie d'utiliser la technologie proxy depuis 2016. Leur familleSystème d'inspection de la pureté IPEn effet, chaque IP doit franchir trois obstacles avant d'être mise en service :
1. analyse de la liste noire
2. test de compatibilité du site web
3. la cartographie des relations entre opérateurs
D'un autre côté, ceux qui prennent n'importe quelle plate-forme commerciale complète, beaucoup d'IP sont sous-loués d'occasion, l'utilisation est mauvaise. La dernière fois que j'ai testé un grand service d'usine, 3 IP sur 10 étaient depuis longtemps dans la bibliothèque de la liste noire d'un trésor...
Quoi qu'il en soit, il s'agit de l'histoire du crawler.Les adresses IP proxy sont une bouée de sauvetage.La première chose à faire est de choisir le bon fournisseur de services pour éviter les problèmes 90%. Choisir le bon fournisseur de services peut vraiment vous éviter des problèmes, ipipgo notre équipe a testé plus de deux ans, le traitement de pointe de 5 millions de demandes par jour n'a pas été hors de la mite. En particulier, leurRéessai en cas d'échec + commutation automatiqueMécanisme, simplement double assurance anti-crise. Les amis qui n'ont pas encore fait appel à l'agent pour se dépêcher d'essayer, ouvrent absolument la porte à un nouveau monde !

