
Ne laissez pas le blocage d'IP bloquer le chemin de votre moteur de recherche
Le frère du crawling web comprend que le travail acharné pour écrire le crawler est soudainement paralysé, neuf fois sur dix, l'IP est bloquée par le site. Cette fois, l'IP proxy sur la scène pour sauver l'urgence, en particulier comme leipipgoCe type de fournisseur de services, spécialisé dans les proxys de haute qualité, peut vous aider à jouer avec la collecte de données.
Trois étapes pour démarrer avec Nokogiri
Tout d'abord, installez une bibliothèque Nokogiri, et à la ligne de commande, tapezgem install nokogiriEt c'est tout. Rappelez-vous les trois axes pour l'utilisation de base :
1. Récupérer du contenu web avec des URI
2. Envoyer le contenu à Nokogiri pour qu'il soit analysé
3. Sélectionnez les données comme vous le feriez avec des vêtements en CSS
nécessite 'nokogiri'
nécessite 'open-uri'
doc = Nokogiri::HTML(URI.open('https://目标网站'))
puts doc.css('h1.title').text
Mise en place d'un gilet de protection sur un Crawler
Directement au code hardcore, ici avecipipgode l'agent qui fait la démonstration. Prêtez attention à lautilisateur_proxyrépondre en chantantproxy_passPour ces deux paramètres, remplacez-les par les informations d'authentification que vous avez obtenues du backend ipipgo.
proxy_host = 'gateway.ipipgo.com' (passerelle.ipipgo.com)
proxy_port = 9021
proxy_user = 'Votre compte'
proxy_pass = 'Votre mot de passe'
options = {
http_proxyaddr : proxy_host, http_proxyport : proxy_port, http_proxy_port = 'votre mot de passe'
http_proxyport : proxy_port, http_proxyuser : proxy_user, http_proxyport : proxy_user
http_proxyuser : proxy_user, http_proxypass : proxy_password
http_proxypass : proxy_pass
}
doc = Nokogiri::HTML(URI.open('https://目标网站', options))
| Type de programme | taux de réussite | coût de maintenance |
|---|---|---|
| connexion directe | 30% | Modifier le code tous les jours |
| Agent général | 60% | Changement hebdomadaire de la période d'enquête |
| proxy ipipgo | 95%+ | C'est une évidence. |
Guide pratique pour éviter la fosse
Ne paniquez pas lorsque vous rencontrez un CAPTCHA, essayez ces trois astuces :
1) Réduire la fréquence des demandes en ajoutant undormir(3)
2. changer de User-Agent, ne pas utiliser toujours le même.
3. utilisation de l'ipipgoAgents résidentiels dynamiquesVisiter sous l'apparence d'une personne réelle
Questions fréquemment posées sur le déminage
Q : L'agent libre ne peut-il pas être utilisé ?
R : Neuf proxys gratuits sur dix sont pitoyables, soit lents comme une tortue, soit suspendus en deux minutes. Il vaut mieux laisser les choses professionnelles aux services payants comme ipipgo.
Q : Que puis-je faire si je ne parviens pas à atteindre la vitesse de l'agent ?
R : Choisissez un nœud proche du serveur cible. Par exemple, si vous voulez capter des sites web japonais, utilisez la salle des serveurs d'ipipgo à Tokyo. Vous pouvez également voir les données de latence de chaque nœud en arrière-plan, choisissez donc ceux qui sont marqués en vert.
Q : Comment puis-je savoir si l'IP est active ?
R : Ajoutez un test au code :
puts open('http://ipinfo.io/ip', options).read
Compétences nécessaires pour améliorer et combattre les monstres
Lorsque vous rencontrez un site particulièrement difficile, essayez la solution d'ipipgomaintien de la sessionFonction. Celle-ci garantit que la même IP de sortie est utilisée pendant 20 minutes, ce qui convient aux scénarios dans lesquels vous devez vous connecter à l'État. Associée à leur routage intelligent, qui sélectionne automatiquement la ligne la plus rapide, l'efficacité de la collecte est directement doublée.
Finalement, j'ai dit une leçon en larmes : l'année dernière, j'ai pris un projet de commerce électronique transfrontalier, je n'ai pas pris la peine d'acheter des services de proxy, les résultats de leur propre pool d'IP de maintenance n'est presque pas mort de l'épuisement. Plus tard, ils ont opté pour ipipgo, ce qui leur a permis d'économiser chaque mois 40 heures de débogage, l'argent dépensé en valant vraiment la peine.

