Tout d'abord, le démarrage à froid du site de renversement : le crawler ne fonctionne toujours pas sur le site bloqué, que faire ?
Les débutants qui viennent de construire un crawler distribué sont souvent confrontés à ce genre d'embarras : avant que le script n'ait fonctionné pendant une demi-heure, le site cible émet une alerte de blocage 403. C'est comme se faire sortir par les agents de sécurité juste après être entré dans un casino et ne pas avoir utilisé tous les jetons que l'on avait en main. À ce moment-làQualité et utilisation de l'IP proxyIl détermine directement si vous pouvez ou non prendre un bon départ.
L'approche traditionnelle consiste à prendre l'agent libre et à lui donner du fil à retordre, avec le résultat que l'on connaît :
- Taux de survie inférieur à 201 pools IPTP3T
- Demander que les empreintes digitales de la tête soient correctement identifiées
- Déclenchement de la triade de la mort pour le contrôle des vents sur les sites web (blocage de l'IP, refus du CAPTCHA, renvoi de données falsifiées)
Deuxièmement, les quatre temps mangent tous les jours : ipipgo real test effective cold start programme
Style 1 : Échauffement de la piscine de l'agent (ne pas commencer un grand jeu)
Les comptes ipipgo nouvellement enregistrés ne commencent pas encore à ramper.Interface de préchauffage IPFaites trois choses :
1. prendre 5 à 10 IP résidentielles pour la détection des battements de cœur (chaque IP envoie des requêtes HEAD à des intervalles de 30 secondes).
2. mélanger des IP provenant de différents lieux géographiques (ne pas les regrouper dans la même salle de serveurs)
3. enregistrer le temps de première réponse pour chaque IP (lancer directement si plus de 2 secondes)
Indicateurs de détection | ligne de passage | Traitement |
---|---|---|
temps de réponse | <1500ms | Remplacer immédiatement après l'expiration du délai |
code d'état | 200/304 | Non-200 jeté |
Taux de réussite des demandes | >85% | Alarme de dépassement de seuil |
Style 2 : Le camouflage routier doit être assez sauvage (ne soyez pas un bon garçon)
Le contrôle des risques d'un site web est le meilleur moyen d'attraper les "demandes parfaites", il faut donc les rendre volontairement imparfaites : Style 3 : Demander du rythme pour jouer à la guerre psychologique (Don't be an Iron Bean)
Les 30 premières minutes d'un démarrage à froid sont les plus dangereuses et c'est la disposition recommandée : Le quatrième style : l'examen de la qualité de la propriété intellectuelle selon trois axes
Définissez ces trois filtres dans le backend d'ipipgo : Q : Quelle quantité de PI dois-je préparer pour un démarrage à froid ? Q : Comment puis-je savoir si une adresse IP est étiquetée ? Q : Que dois-je faire si je rencontre une tempête CAPTCHA ? Q : Quels sont les avantages d'ipipgo par rapport aux autres ? Les démarrages à froid, c'est un peu comme le jeu du démineur : un faux pas et c'est fini. Utilisez ces astuces sauvages avec ipipgo'sSystème de routage intelligentAu moins, cela permettra à votre crawler de survivre après la période de protection des débutants. N'oubliez pas que le contrôle du vent sur un site web est un tigre de papier, plus vous ressemblez à une personne réelle, moins il peut faire de choses.
- Avec ipipgo.Générateur aléatoire d'UAMélangez les types d'appareils (ne vous contentez pas de Chrome)
- Fluctuations aléatoires des intervalles de requête (entre 0,8 et 3,5 secondes).
- Plus d'IP mobiles tôt le matin, plus d'IP à large bande pendant la journée
1. les 5 premières minutes : toutes les 2 minutes, changement d'IP, seulement robots.txt et sitemap
2. minutes 6-15 : 3 sondages IP pour explorer les pages secondaires
3) À partir de la minute 16 : ouverture officielle du crawl distribué
1) Éliminer les segments IP qui ont été étiquetés dans les trois jours.
2) La priorité est donnée aux adresses IP qui sont actives depuis plus de 12 heures.
3. blocage automatique des adresses IP qui déclenchent le CAPTCHA (refroidissement pendant 6 heures avant réutilisation)Le temps consacré à l'assurance qualité : un piège pour les novices
R : en fonction de la taille du site cible, il est recommandé aux sites de petite et moyenne taille de préparer 50 + IP dynamiques, avec ipipgo.forfait de paiement à l'utilisationMeilleur rapport qualité/prix, pas de gaspillage en cas de rupture de stock.
R : trois signes : apparition soudaine d'un grand nombre de codes de vérification, anomalies dans le format des données renvoyées, temps de réponse élevé. Cette fois-ci, il faut se dépêcher d'aller au point de la console ipipgo !Changer de groupe IP en un clic.
R : Effectuez immédiatement trois opérations de déconnexion : déconnectez la demande, changez le segment IP et réduisez la fréquence. Utilisez la fonctionMode d'hébergement d'urgencepassera automatiquement à la réserve d'adresses IP la plus élevée.
R : Être humain, c'est deux choses :
1. la proportion d'IP résidentielles réelles est supérieure à 70% (contrairement à certaines IP de salles de serveurs domestiques qui trompent les gens)
2. effacement automatique des empreintes digitales HTTP par demande (cette technologie est brevetée par leur famille)