
L'évangile de la fête du tableau Excel : des plug-ins de proxy IP crawler à faire soi-même
Les amis qui font de l'analyse de données ont dû rencontrer cette situation : ils veulent utiliser Excel pour escalader directement les données du site, mais les résultats ne font que saisir deux pages d'IP qui ont été bloquées. En ce moment, si vous pouvez avoir unCommutation automatique de l'IP proxyLe plug-in, c'est vraiment une bénédiction déguisée. Aujourd'hui, nous allons vous apprendre à construire une main pour Excel "anti-blocking artefacts".
Développement de plugins Idées de base
L'ensemble du plugincomposante de l'âmeTrois éléments seulement : le module de requête web, le module de planification de proxy et le module de nettoyage des données. L'accent est mis sur la partie relative à la programmation du proxy, qui doit être réalisée :
1. accès en temps réel au pool de proxy disponible
2. commutation intelligente des IP défaillantes
3. réessai automatique en cas d'échec
Pour donner un marronnier, avec VBA appelez l'interface API ipipgo, toutes les 5 fois pour capter les données sur le changement d'IP, de sorte que le site ne puisse tout simplement pas toucher à votre adresse réelle.
Décomposition pratique étape par étape
Étape 1 : Créer un canal proxy
Allez sur le site web d'ipipgo et inscrivez-vous, puis trouvez ce paramètre dans la console :
Adresse API : api.ipipgo.com/getproxy
Clé : votre jeton unique
Type de protocole : HTTP/HTTPS convient parfaitement.
Étape 2 : Écrire le code principal
Voici un exemple en Python (n'ayez pas peur, il sera converti en VBA plus tard) :
demandes d'importation
def get_proxy() : res = requests.get("")
res = requests.get("http://api.ipipgo.com/getproxy?token=你的密钥")
return res.json()['proxy']
def excel_crawler(url).
for _ in range(3) : retry at most 3 times
try.
proxy = {"http" : get_proxy()}
data = requests.get(url, proxies=proxy, timeout=10)
return clean_data(data.text)
except.
continue
return "Crawl failed"
Guide pour éviter la fosse
| problèmes courants | prescription |
|---|---|
| Défaillances fréquentes de la propriété intellectuelle | Passer au paquet résidentiel statique ipipgo |
| Rapport d'erreurs sur les sites web HTTPS | Vérifier si le protocole proxy prend en charge le protocole SSL |
| Vitesse instable | Ouvrir le canal dédié à TK |
Rappel spécial : ne répondez pas au CAPTCHA, il suffit d'être sur la plateforme de codage pour ne pas perdre d'argent, après tout, le temps, c'est de l'argent.
Temps consacré à l'assurance qualité
Q : Pourquoi dois-je utiliser une adresse IP proxy ?
R : Voici un cas concret : un utilisateur a escaladé directement les données d'un commerce électronique, 1 heure a été bloquée 32 IP, changé en ipipgo résidentiel dynamique, collecte continue de 6 heures sans pression.
Q : Que dois-je faire si le complément Excel est lent ?
A : trois directions d'optimisation : ① changer l'IP statique exclusive ② réduire les ressources de chargement des pages ③ fixer un intervalle de requête raisonnable (recommandé 2-5 secondes)
Q : Quel forfait dois-je choisir ?
R : Les utilisateurs individuels choisissent Dynamic Standard Edition (7,67 $/GB), Enterprise Edition Dynamic (9,47 $/GB) pour les projets d'entreprise, et Static Residential (35 $/IP) pour les opérations fixes à long terme.
Dites quelque chose qui vient du cœur.
En fait, la partie la plus difficile de ce plugin n'est pas la mise en œuvre technique, mais leSource stable d'agents. Quiconque a déjà utilisé un proxy gratuit sait qu'il s'agissait d'un site désastreux. Ensuite, je suis passé à ipipgo et j'ai découvert la loi de l'arôme véritable - les IP résidentielles des gens sont de véritables IP à large bande domestiques, plus d'un ordre de grandeur plus fiables que les IP des salles de serveurs.
Une dernière astuce privée : ajouter unModule de détection de la qualité IPIl filtre automatiquement les nœuds à forte latence. Pour que le plugin soit utilisé de manière à la fois stable et rapide, le patron s'est adressé directement à l'initié !

