
Apprendre à utiliser Selenium pour capturer des pages web, proxy IP pour que le jeu soit stable
Récemment, un frère m'a toujours demandé, en utilisant Selenium pour s'engager dans les données toujours être bloqué IP comment faire face ? Aujourd'hui, nous allons nous pencher sur cette question. Tout d'abord, soyons honnêtes, maintenant le site est très intelligent, vous prenez une IP locale à plusieurs reprises brosser, ne pas bloquer vous bloquer qui ? Cette fois, nous devons inviter notre sauveur - le proxy IP.
Pourquoi dois-je utiliser une adresse IP proxy ?
Par exemple, si vous vous rendez tous les jours au même kiosque pour acheter des cigarettes, le patron doit se souvenir de vous le troisième jour, n'est-ce pas ? L'IP proxy, c'est comme changer de vêtements tous les jours pour acheter des cigarettes, le patron ne vous reconnaîtra tout simplement pas. En particulier avec Selenium, ce type de fonctionnement du navigateur réel, avec l'IP dynamique, le site n'est fondamentalement pas possible.
Je vais devoir vous présenter ceci.ipipgoLe pool IP est aussi grand que l'océan Pacifique, avec plus de 300 régions du monde parmi lesquelles choisir. Le plus important estIP dédiée non dupliquéeJe l'ai utilisé avec une grande tranquillité d'esprit et j'ai testé mon propre projet pendant 72 heures de fonctionnement continu sans aucun problème.
Configuration proxy de Selenium en trois étapes
from selenium import webdriver
proxy = "123.123.123.123:8888" adresse proxy fournie par ipipgo
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument(f'--proxy-server=http://{proxy}')
N'oubliez pas de le remplacer par le mot de passe de votre compte ipipgo !
chrome_options.add_argument('--proxy-auth=nom d'utilisateur:motdepasse')
driver = webdriver.Chrome(options=chrome_options)
driver.get("http://example.com")
Notez qu'il y a deux nids-de-poule ici :
1. n'utilisez pas de proxies gratuits ! Sans parler de la lenteur, 90% sont toutes des IP restantes utilisées par d'autres.
2. les informations relatives à l'accréditationNe commettez pas d'erreur.Si vous disposez d'un générateur de clé dans le backend d'ipipgo, nous vous recommandons de le copier et de le coller directement.
Techniques anti-blocage dans le monde réel
Il ne suffit pas d'avoir un agent, il faut apprendre les combinaisons :
| finesse | correspond à l'anglais -ity, -ism, -ization | Programme recommandé |
|---|---|---|
| Rotation de la période d'enquête | Éviter les accès fréquents à partir d'une seule adresse IP | Commutation dynamique d'API pour ipipgo |
| intervalle de demande | Simule le rythme d'une personne réelle | Attente aléatoire de 3 à 8 secondes |
| Camouflage des empreintes digitales | Fonctions d'automatisation cachées | Modifier les paramètres de l'empreinte digitale du navigateur |
Foire aux questions QA
Q : Que dois-je faire si l'adresse IP du proxy est invalidée après son utilisation ?
R : Cette situation correspond à quatre-vingt pour cent de l'utilisation d'un pool de proxy public, il est recommandé de passer à ipipgo.Paquet IP exclusifL'adresse IP de chaque IP dispose d'une authentification indépendante, la stabilité est directement tirée vers le haut.
Q : Le code s'exécute et affiche une erreur de certificat.
R : Essayez d'ajouter ce paramètre aux options :
chrome_options.add_argument('--ignore-certificate-errors')
Q : Comment puis-je savoir si une procuration est en vigueur ?
A : Visiteshttp://ipipgo.pro/checkipSur cette page, vous pouvez voir l'utilisation actuelle de l'IP d'exportation, pro-test efficace.
Un jeu amélioré : des stratégies de commutation intelligentes
Partage d'une configuration de haut niveau pour les gars, utilisant l'API d'ipipgo pour le changement automatique d'IP :
demandes d'importation
def refresh_proxy() : resp = requests.get("")
resp = requests.get("https://api.ipipgo.pro/getproxy")
return resp.json()['proxy']
Changement automatique de l'adresse IP toutes les 20 captures de page
si count % 20 == 0.
driver.quit()
current_proxy = refresh_proxy()
Réinitialiser le navigateur...
La clé est de choisir le bon fournisseur de services proxy. J'ai utilisé sept ou huit fournisseurs, mais en fin de compte, c'est toujours la même chose.ipipgoLes plus fiables, avec un temps de réponse de 200 ms ou moins et un taux d'échec inférieur à 0,1%.
Enfin, l'IP proxy n'est pas une panacée, avec une fréquence de requête et une stratégie de résolution de page raisonnables. Les problèmes spécifiques sont les bienvenus sur le site officiel d'ipipgo pour trouver le service technique à la clientèle, ils sont en ligne 24 heures sur 24, plus professionnels que moi sur cette route sauvage.

