
Tout d'abord, pourquoi votre crawler est-il toujours attiré par le site ?
Les confrères qui ont pratiqué le crawling sur le web ont dû rencontrer cette situation : hier, un bon programme, aujourd'hui soudain une erreur 403, ou le retour d'un tas de CAPTCHA. Cette chose est franchementVotre adresse IP réelle a été trouvée par le site webLa première chose que je veux faire est de m'assurer que vous comprenez bien ce que vous faites. Maintenant, un peu de l'échelle du site sont installés système de contrôle du vent intelligent, la même IP des dizaines de visites consécutives, quelques minutes pour vous d'éteindre la petite maison noire.
La semaine dernière, un type qui fait de la comparaison de prix dans le commerce électronique est venu me voir et s'est plaint que le programme de collecte qu'ils ont écrit en Java fonctionnait puis tombait en panne. Je lui ai demandé d'envoyer les journaux pour voir, bon gars, il a effacé toute la page de vérification du robot d'Amazon. Cette situation n'a pas besoin d'être réfléchie, elle n'a certainement pas fait un bon travail de camouflage de l'IP.
Deuxièmement, il s'agit de vous apprendre à utiliser Java avec un proxy.
Ici, pour montrer aux gars une version basique de la configuration du proxy, prenons le client HttpClient le plus courant :
// N'oubliez pas d'ajouter la dépendance httpclient dans le fichier pom.xml
CloseableHttpClient httpClient = HttpClients.custom()
.setProxy(new HttpHost("proxy.ipipgo.com", 9000)) // Utiliser le serveur proxy d'ipipgo ici.
.build() ;
HttpGet request = new HttpGet("https://目标网站.com") ;
try (CloseableHttpResponse response = httpClient.execute(request)) {
// Traite les données de la réponse...
}
Remarquez dans le code que l'élémentproxy.ipipgo.comCette adresse, c'est ipipgo qui fournit une entrée proxy dynamique. Leur proxy a l'avantage de changer automatiquement d'IP pour chaque requête, ce qui est beaucoup plus facile que de modifier soi-même le pool de proxy.
Troisièmement, le jeu avancé de la propriété intellectuelle par procuration
Il ne suffit pas de connaître les bases, voici quelques conseils pratiques à partager :
1) Paramètres de l'en-tête de la requête aléatoire
Ne laissez pas le site voir que vous êtes un robot ! Il est recommandé de changer aléatoirement de User-Agent pour chaque requête, vous pouvez préparer un fichier txt pour stocker des dizaines de logos de navigateurs.
2. stratégie de retard intelligente
Ne vous contentez pas d'intervalles de temps fixes, optez pour un délai aléatoire (entre 0,5 et 3 secondes) afin de simuler le rythme des opérations d'une personne réelle. Cette astuce a permis d'augmenter le taux de survie de plus de 40%.
| Type de programme | avantage | inconvénients |
|---|---|---|
| Pool d'agents auto-constitué | Entièrement contrôlable | Coût élevé de la mise au rebut |
| Agents libres | Pas d'argent. | La fiabilité dépend de la chance |
| professionnel de l'ipipgo | prêt à l'emploi | Cela coûte de l'argent (mais cela en vaut la peine) |
IV. approbation des FAQ sur l'assurance qualité
Q : Pourquoi êtes-vous toujours bloqué après avoir utilisé un proxy ?
R : Vérifiez trois points : ① la qualité de l'IP du proxy ② la fréquence des demandes est trop élevée ③ il n'y a pas de cookies de traitement.
Q : Comment choisir un forfait pour ipipgo ?
R : Pour les développeurs individuelsVersion de base 500IP/jourDes affaires suffisantes, au niveau de l'entreprise, en toute simplicitépool IP exclusifLa nécessité d'un haut degré d'anonymat dans la sélection desÉdition personnalisée pour les entreprises
Q : Que dois-je faire si la demande de procuration n'aboutit pas ?
R : Réglez d'abord le délai d'attente à 15 secondes. Si le problème persiste, nous vous recommandons de contacter le service clientèle d'ipipgo pour modifier le nœud d'accès.
V. Lignes directrices pour éviter les fosses (leçons tirées du sang et des larmes)
L'année dernière, j'ai mis le pied dans un grand gouffre lorsque j'ai aidé mon ami à mettre en place le système de contrôle des billets : j'ai utilisé un proxy gratuit à l'époque pour obtenir un prix moins élevé, mais la chaîne s'est brisée au moment critique. Plus tard, j'ai opté pour le proxy d'ipipgo.Agents commerciauxNon seulement le taux de réussite est stable à plus de 98%, mais il y a aussi un bonus inattendu - il a été découvert que leurs segments IP peuvent en fait contourner des restrictions géographiques spécifiques sur certains sites web (ce qui compte comme un avantage caché).
Un dernier conseil : n'économisez pas d'argent sur les IP de proxy ! Un bon service de proxy peut vous faire perdre moins de cheveux, et le temps gagné pour écrire quelques crawlers supplémentaires ne sent pas bon ? Les confrères qui ont besoin de tester peuvent se rendre sur le site officiel d'ipipgo pour obtenir lesPack d'essai gratuitLes nouveaux arrivants reçoivent également 50 appels API pour s'inscrire, ce qui est testé et valide.

