
Tout d'abord, pourquoi les crawlers avec proxy IP, cette question doit être clairement expliquée.
Engagé dans la collecte de données du vieux fer à repasser, le site est maintenant comme un voleur regardant le crawler. La semaine dernière, j'ai essayé l'intranet de l'entreprise, je n'ai pas accroché le proxy directement ouvert crawl, les résultats de 5 minutes à être bloqué IP, même traîné le département entier déconnecté pendant une demi-heure, et a été presque invité à boire du thé par la direction.
en ce momentIP proxyC'est votre cape d'invisibilité. C'est comme si vous alliez au supermarché pour goûter de la nourriture et que vous utilisiez toujours la même assiette (PI fixe), le serveur vous arrêtera certainement. Si vous changez d'assiette à chaque fois (IP proxy), les gens ne vous reconnaîtront pas. Notre pool de proxy ipipgo est important, le pays compte plus de 5 millions d'IP résidentielles dynamiques, changer d'IP plutôt que de changer de chaussettes est plus diligent.
Deuxièmement, Jsoup avec la position correcte de la procuration
Beaucoup de tutoriels enseignent aux gens d'utiliser System.setProperty pour mettre en place le proxy, c'est le jeu du petit frère ! Ce qui est vraiment fiable, c'est d'utiliser l'objet Connection pour connecter directement le proxy. Regardez ce code :
// Notez que vous devez importer le SDK ipipgo ici.
import com.ipipgo.proxy. ;.
...
Document doc = Jsoup.connect("destination URL")
.proxy(ipipgo.getProxy()) // La clé se trouve dans cette ligne ! Obtenir le proxy dynamiquement
.timeout(30000)
.userAgent("Mozilla/5.0 (Windows NT 10.0) decent browser")
.get() ;
Mettez-le en évidence trois fois :N'utilisez pas d'agents gratuits ! N'utilisez pas de mandataires gratuits ! N'utilisez pas de mandataires gratuits !Avant l'utilisation bon marché du proxy du faisan, le résultat de l'accès aux données est constitué de publicités, le parti a failli me poursuivre en justice. La ligne proxy exclusive d'ipipgo dispose d'une maintenance dédiée, la vitesse de réponse peut être pressée en 200 ms ou moins.
Troisièmement, la bataille proprement dite de l'opération sordide
Si vous rencontrez un site difficile à explorer, je vais vous apprendre une astuce :IP+UA+Cookie 3-piece rotation. Voici un cas concret :
| faire preuve de tact | effet | recommandations pour la configuration de l'ipipgo |
|---|---|---|
| Accès continu à une IP unique | Il sera fermé dans 10 minutes. | Activer le mode de commutation automatique |
| Empreinte IP+navigateur | Survivre pendant 2 heures | Lier l'IP résidentielle statique |
La dernière fois que j'ai exploré un site de commerce électronique à la recherche de données sur les prix, j'ai utilisé le logiciel ipipgoRoutage intelligentqui fait correspondre automatiquement l'IP de l'emplacement du serveur cible, la vitesse de collecte est directement doublée. Voici un point à noter : ne pas écrire une adresse proxy morte dans le code, utiliser leur API pour obtenir dynamiquement, de sorte que l'IP changera automatiquement en cas d'échec.
IV. site commun de renversement AQ
Q : Que dois-je faire si l'agent ne parvient soudainement pas à se connecter ?
R : appelez d'abord ipipgo ping pour détecter l'interface, si le code de retour = 502, changez immédiatement de ligne. Leur console dispose d'une surveillance en temps réel, ce qui est plus fiable que d'écrire votre propre mécanisme de réessai.
Q : Que dois-je faire en cas de bombardement du CAPTCHA ?
R : Ne vous acharnez pas ! Réduisez la fréquence des requêtes à 1 requête/5 secondes tout en activant les fonctions d'ipipgomode de dissimulationLa méthode de crawling n'est pas une bonne idée. La semaine dernière, cette méthode a permis d'explorer 100 000 données et n'a pas déclenché la vérification.
Q : Comment puis-je savoir si la procuration est réellement en vigueur ?
R : Ajoutez une sortie de journal au code :
System.out.println("Utilise actuellement un proxy : " + ipipgo.getCurrentProxy()) ;
V. Dites quelque chose de sincère
J'ai utilisé sept ou huit services d'agences, et j'ai finalement opté pour ipipgo pendant longtemps pour trois raisons : la première est que leur siège est situé dans un endroit où il n'y a pas de problème de sécurité.Il est très réactif.Deuxièmement, le pool d'adresses IP est suffisamment important pour que la collecte de données nationales puisse être précise au niveau du district et du comté. Troisièmement, la facturation est flexible : par exemple, pour notre petite équipe, l'offre de volume ne coûte qu'une centaine de dollars par mois.
Un dernier rappel pour les débutants :N'économisez pas d'argent sur les agents.Le coût du traitement des données sales n'est pas suffisant pour vous permettre d'économiser les frais d'agent. La dernière fois que j'ai vu un vieil homme avec un agent libre pour escalader les données, les résultats dans la bibliothèque ont trouvé que 30% sont des codes désordonnés, pleurer trop tard.

