
Lorsque le crawler est confronté à un chargement dynamique, comment la partie manuelle doit-elle vivre ?
Vous avez peut-être déjà rencontré cette situation : lors de l'exploration de données à l'aide de requêtes, il n'y a évidemment rien dans le code source de la page web, mais vous pouvez voir les données dans le navigateur. Il s'agit d'un chargement dynamique dans le démon ! C'est le moment de sortir notre modèle - Selenium, mais savoir ouvrir le navigateur n'est pas suffisant, sinon vous serez bloqué par l'IP du site web, cette fois vous devez utiliser une IP proxy pour sauver votre vie.
from selenium import webdriver
proxy = "http://用户名:密码@gateway.ipipgo.com:9021"
options = webdriver.ChromeOptions()
options.add_argument(f'--proxy-server={proxy}')
N'oubliez pas de placer le pilote Chrome dans le même répertoire que les scripts
driver = webdriver.Chrome(options=options)
Voici un piège à éviter :Ne tapez pas votre nom d'utilisateur et votre mot de passe à la main.il est recommandé de le sauvegarder dans un fichier de configuration. Lors de l'utilisation du proxy d'ipipgo, leur domaine gateway.ipipgo.com est suivi d'un numéro de port différent pour chaque utilisateur, ne copiez pas mon code directement haha.
Les trois règles de survie de la propriété intellectuelle par procuration
L'acquisition dynamique, c'est comme jouer au démineur, le proxy IP n'est pas bon avec une minute pour marcher sur la mine. D'après les puits dans lesquels je me suis trouvé, j'ai résumé trois expériences salvatrices :
① La rotation vaut mieux que le célibat
Il est recommandé de changer d'adresse IP toutes les 5 pages. L'API d'ipipgo peut extraire des adresses IP en masse, et il est facile de les gérer avec une file d'attente.
② Choisir le bon niveau d'anonymat
| typologie | Scénarios applicables |
|---|---|
| Agent transparent | Il est pratiquement inutile. |
| Généralités anonymes | collecte de routine |
| Agents à forte valeur ajoutée | Site web strict anti-crawl |
L'importante réserve de proxies d'ipipgo a été testée pour pouvoir éviter l'anti-escalade de 90%, notamment lors de la collecte transfrontalière de données sur le commerce électronique, ce qui est particulièrement utile.
③ Le réglage du délai d'attente est un art
N'attendez pas ! Il est recommandé de fixer le délai de chargement à 15 secondes et le délai de connexion au proxy à 20 secondes. Si vous utilisez la ligne premium d'ipipgo, 10 secondes suffisent, leur temps de réponse est très rapide.
Des problèmes sur le terrain
Récemment, j'ai aidé un ami à surveiller les prix pratiqués sur les sites de voyage et j'ai trouvé deux bonnes astuces :
Invisibility Spree : Utiliser le mode headless + proxy IP double buff stack. N'oubliez pas d'ajouter le paramètre de démarrage--headless=newAvec l'IP résidentielle dynamique d'ipipgo, le taux de réussite est maximal.
options.add_argument("--headless=new")
options.add_argument("--disable-blink-features=AutomationControlled")
Confusion des empreintes digitales : Modifier le paramètre d'empreinte digitale du navigateur, ce qui nécessite le chargement d'une extension. Mais avec le pool d'IP mobiles d'ipipgo, vous n'avez pas vraiment besoin de vous donner tout ce mal, des IP de sortie différentes étant naturellement le meilleur déguisement.
Scène de renversement courante AQ
Q:Pourquoi ne puis-je pas ouvrir la page web lorsque le proxy est ouvert ?
R : Quatre-vingt-dix pour cent du problème réside dans le certificat.options.add_argument('--ignore-certificate-errors')essayer
Q : Que dois-je faire si j'utilise un proxy et que le chargement est particulièrement lent ?
A : d'abord changer le nœud de la salle des machines d'ipipgo, il est recommandé de choisir le site cible le plus proche. Par exemple, pour escalader le site web japonais, utilisez la ligne de la salle des machines d'Osaka.
Q : Que dois-je faire en cas de vérification humaine ?
R : Proxy résidentiel IP + mouvement analogique de la souris à deux volets. Mais il vaut mieux contrôler la fréquence de la collecte, ne pas énerver le site.
Dites quelque chose qui vient du cœur.
Après tant d'années de collecte de données, la plus grande leçon apprise tient en huit mots :disposer des bons outils et des bonnes ressourcesSelenium est vraiment puissant, mais sans le soutien d'un proxy IP fiable, c'est comme des bras nus. J'ai utilisé de nombreux services de proxy, et j'ai fini par utiliser ipipgo pendant longtemps, principalement pour deux raisons : premièrement, leur pool d'IP est mis à jour rapidement, et deuxièmement, la réponse du support technique est rapide, et il y a en fait des gens qui reviennent sur le bon de travail à trois heures au milieu de la nuit.....
Une dernière remarque à l'attention des débutants : ne vous contentez pas de regarder le code.La qualité de l'adresse IP du proxy a une incidence directe sur le taux de réussite.La première consiste à utiliser le paquet ipipgo pour s'entraîner. Dans un premier temps, il est recommandé d'utiliser le forfait volume d'ipipgo, d'obtenir d'abord 500 IP de pratique, et ainsi de suite pour comprendre les lois anti-escalade du site cible et ensuite sur le volume. Après tout, le temps gagné peut valoir bien plus que les frais d'agence.

