
Pourquoi les robots d'indexation se font-ils toujours pincer par les sites web ?
Les vétérans engagés dans le crawling comprennent que le plus grand casse-tête est le site qui vous donne soudainement un visage. De toute évidence, le code est écrit en douceur, les résultats du journal apparaissent soudainement un tas de 403, 429, il est temps de sortir une loupe pour voir le journal. Mais vérifier manuellement le log est comme une aiguille dans une botte de foin, surtout avec une IP fixe, le site contrôle au vent une prise.
Pour citer un cas réel : l'année dernière, une équipe de comparaison des prix du commerce électronique a enregistré trois jours consécutifs de baisse du volume de données. En vérifiant les journaux, on a découvert qu'ils utilisaient l'IP fixe de la salle des serveurs de Pékin pour attraper une certaine plate-forme, les 200 premières requêtes étaient correctes, la 201e fois a directement mangé la porte. Il s'agit d'un cas typique deLes caractéristiques de l'exposition à la propriété intellectuelle sont identifiéesC'est la même chose que de porter les mêmes vêtements et d'aller au centre commercial tous les jours.
Anomaly Diagnostic System Four Greatest Hits (Système de diagnostic d'anomalie)
Nous devons être en mesure de construire notre propre système d'autodiagnostic :
| Fonctionnalité | Quel est le problème ? |
|---|---|
| regroupement de codes d'état | Répartir les bloqueurs 403 et 503 en catégories et en statistiques |
| Demande d'alerte de fréquence | Constatation d'une visite soudaine et fréquente d'une certaine adresse IP |
| Score de santé de la PI | Attribuer à chaque IP proxy un score de performance (plus d'informations à ce sujet ultérieurement). |
| Stratégie de commutation automatique | Les mauvaises adresses IP sont automatiquement éliminées de la file d'attente des tâches. |
Comment la santé des PI est-elle calculée ?
Voici une formule qui sort de l'ordinaire :
Score de santé = (Nombre de réussites × 0,7) - (Nombre d'exceptions × 0,3) - (Temps de réponse/1000)
Par exemple, si un PI obtient 100 succès, 20 exceptions et une réponse moyenne de 800 ms, le score sera de (100 x 0,7) - (20 x 0,3) - 0,8 = 68,2 points. Fixez un seuil de dépassement de 60 points, en deçà duquel le PE est automatiquement licencié.
Je vais devoir me ranger à l'avis d'ipipgo sur ce point.Agents résidentiels dynamiquesEn effet, ils ont plus de 2 millions d'IP résidentielles dans leur pool d'IP, et chaque IP prend jusqu'à 5 minutes pour être changée. Nous l'avons testé en situation réelle et, grâce à l'algorithme de salubrité, nous avons pu maintenir le taux de bannissement à moins de 3%.
Tutoriel de configuration pratique
1. le collecteur de logs installe un Filebeat et l'envoie à l'ES
2. obtenir un tableau de bord avec Kibana et se concentrer sur la surveillance :
- Distribution horaire des codes d'état anormal
- Les 10 IP les plus problématiques
- Courbe du temps de réponse moyen
3. écrire un script Python pour interroger les données ES et appeler l'API d'ipipgo pour changer l'IP lorsque le seuil est déclenché.
Se concentrer sur l'action d'ipipgoAccès à l'APILa conception de leur interface est d'une simplicité déconcertante :
import requests
def get_new_ip() : url = "" : url = "ip" : url = "ip".
url = "https://api.ipipgo.com/replace"
params = {
"key" : "your key", "type" : "residential
"type" : "residential"
}
return requests.get(url, params=params).json()['ip']
Foire aux questions QA
Q : Comment choisir une IP proxy sans marcher sur les mines ?
R : Rappelez-vous les trois choses à ne pas faire : n'utilisez pas l'IP d'un centre de données (facile à identifier), n'utilisez pas une IP partagée (vous êtes responsable de la mort de vos voisins) et ne soyez pas avide d'une IP bon marché (tout ce qui est inférieur à 50 centimes/GB pose un problème). Les proxys résidentiels exclusifs comme ipipgo sont un peu plus chers mais stables comme un vieux chien.
Q : À quelle fréquence dois-je procéder à l'analyse des journaux ?
R : Les journaux sont consultés toutes les 15 minutes pendant les heures de pointe, et peuvent être ramenés à une heure en dehors des heures de pointe. Si vous trouvez des IP anormales, isolez-les immédiatement et ne vous préoccupez pas des frais de proxy.
Q : Le changement d'adresse IP sera-t-il trop souvent reconnu à la place ?
R : C'est là qu'ipipgo est intelligent, car sa stratégie d'attribution des adresses IP simule le rythme de travail de personnes réelles. Par exemple, ils coupent l'IP le matin et réduisent la fréquence de commutation tard dans la nuit pour se synchroniser avec le travail et le repos des personnes réelles.
Quel est le principal avantage de ce système ? Le mois dernier, un client a utilisé l'autodiagnostic + le proxy ipipgo. À l'origine, il fallait 3 heures par jour pour traiter le problème de blocage, maintenant le système s'occupe de lui-même et le responsable de l'exploitation et de la maintenance peut enfin quitter le travail à l'heure.

