
Opérations pratiques avec wget déguisé en personne réelle
Ceux d'entre vous qui participent à la collecte de données sur le web savent que de nombreux sites web passeront le test duUser-AgentIdentifier les robots d'indexation. Aujourd'hui, nous utiliserons le langage le plus simple, disons comment wget outil de ligne de commande porter un "gilet", avec le service IP proxy ipipgo, parfait pour éviter la détection des sites web.
wget --user-agent="Mozilla/5.0 (Windows NT 10.0 ; Win64 ; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" https:/ /targets.com
C'est ce que fait la commande ci-dessusagent utilisateur se faisant passer pourJe ne sais pas trop comment faire, mais je vais essayer de déguiser wget en Chrome. Mais ce n'est pas suffisant, si vous utilisez le même accès IP pendant longtemps, le site sera toujours bloqué. Cette fois, nous devons proposer notre tueur - ipipgo dynamic proxy IP.
Combinaison réelle d'IP Proxy
Recommandé pour ipipgoAgents résidentiels dynamiquesCe type d'IP est exactement le même que l'IP de l'utilisateur réel qui surfe sur Internet, ce qui est extrêmement discret. Voir ici pour plus de détails sur la façon de la configurer :
wget -e use_proxy=yes -e http_proxy=123.123.123.123:8888 --user-agent="Spoof UA" URL cible
Il suffit de changer l'adresse IP qui s'y trouve par l'IP proxy fournie par ipipgo. Vous pouvez également le configurer dans le backend de leur maisonCycle automatique de changement d'IPIl est recommandé de modifier les paramètres toutes les 5 à 10 minutes afin que le site web ne ressente pas du tout le modèle.
Tableau des paquets de configuration anti-détection
| élément de configuration | valeur recommandée |
|---|---|
| User-Agent | Chrome dernière version UA |
| intervalle de demande | 30-60 secondes au hasard |
| Fréquence de remplacement des IP | 5 minutes par trajet |
| Type d'agent | Agent résidentiel |
N'oubliez pas de l'activer dans le backend d'ipipgoModèle de rotation de la propriété intellectuelleCette fonction permet de passer automatiquement d'une région à l'autre de la propriété intellectuelle, comme dans les romans d'arts martiaux "shape shifting", afin que le site ne puisse pas être défendu.
Lignes directrices sur le déminage des problèmes courants
Q : Que dois-je faire si mon IP proxy tombe soudainement en panne ?
R : Le pool d'adresses IP d'ipipgo est mis à jour avec plus de 200 000 adresses IP chaque jour, et il bascule automatiquement lorsqu'il rencontre une défaillance. Il est recommandé d'ajouter la ligne de commande--repli-contre-refussont automatiquement réessayés.
Q : Comment puis-je vérifier si l'agent est en fonction ?
R : Testez d'abord avec cette commande :wget -q -O - checkip.ipipgo.comvous pouvez voir l'IP de sortie actuellement utilisée.
Q : Que faire si le site bloque toujours les demandes ?
R : Trois directions de vérification : 1. si l'UA est trop fausse 2. si la fréquence des requêtes est trop élevée 3. si l'IP du proxy est marquée. Il est recommandé d'activer la console ipipgo.Détection de l'état de santé de l'IPFonction.
Conseils pour une configuration améliorée
Dans le fichier de configuration~/.wgetrcAjoutez ces paramètres au R.I., une fois pour toutes :
user_agent = Mozilla/5.0 (Windows NT 10.0 ; rv:91.0) Gecko/20100101 Firefox/91.0
use_proxy = on
http_proxy = ipipgo proxy address:port
retry_connrefused = on
random_wait = on
Enfin, je voudrais vous rappeler qu'il ne faut jamais choisir un service proxy au rabais.Agents à forte valeur ajoutéeLes informations X-Forwarded-For seront complètement effacées dans l'en-tête de la requête, ce qui constitue la véritable "furtivité". Lorsque vous rencontrez un site web qui exige une connexion, n'oubliez pas de l'utiliser avec les cookies, le taux de réussite peut être augmenté de plus de 70%.

