
Apprenez à convertir manuellement les données IP de proxy en fichier CSV.
Les vieux routiers de la collecte de données savent que les données IP proxy doivent être stockées et analysées. Mais beaucoup d'outils sortent du format en désordre, aujourd'hui vous apprendre à utiliser Python tout le travail, les données de proxy IP emballés dans un formulaire CSV clair et direct à emporter.
Préparez votre kit avant la collecte
Il est important d'avoir un service IP proxy à portée de main, voici quelques recommandationsPackage Dynamic Residential (Standard) d'ipipgoLe premier n'est pas cher, plus de 7$ pour 1 G de trafic est suffisant. L'appel à l'API est particulièrement simple, il suffit d'obtenir des données longues comme ceci :
{
"ip" : "123.123.123.123",
"port" : 8888,
"expire_time" : "2024-01-01 12:00",
"location" : "United States Texas"
}
Veillez à ce que les champs soient complets, car certains prestataires de services fournissent des données manquant de bras et de jambes, qui seront traitées ultérieurement de manière insensée.
Trois étapes pour une acquisition dans le monde réel
Écrivons un simple script en Python, et n'oublions pas de charger le fichierdemandesrépondre en chantantpandasCes deux bibliothèques :
importer des requêtes
import pandas as pd
Interface pour obtenir des données de l'ipipgo (modifiez l'API réelle vous-même)
api_url = "https://api.ipipgo.com/get_proxy"
resp = requests.get(api_url)
raw_data = resp.json()
Points forts ! Aplatir les données et les organiser
clean_data = []
pour item dans raw_data['proxies'] :
clean_data.append({
'adresse IP' : item['ip'],
'numéro de port' : str(item['port']), convert string to error-proof
'expiration_time' : item['expire_time'],
'location' : item['location'].split()[0] as long as country
})
Il est temps de passer au tour de magie
df = pd.DataFrame(clean_data)
df.to_csv('Proxy IP List.csv', index=False, encoding='utf-8-sig')
Après l'exécution du script, le répertoire actuel s'affichera.Liste des IP proxy.csvOuvrez-la dans Excel et elle se présente comme suit :
| Adresse IP | numéro de port | date d'expiration | site |
|---|---|---|---|
| 123.123.123.123 | 8888 | 2024-01-01 12:00 | États-Unis d'Amérique |
Guide pour éviter les pièges à éviter
Point de fosse 1 :Dans le cas d'un dictionnaire imbriqué dans les données, vous devez utiliser la fonction json_normalize pour l'étendre, ne vous contentez pas de le faire !
Point de fosse 2 :Si le fichier csv s'ouvre avec un code brouillé, remplacez le paramètre encoding par utf-8-sig.
Point de fosse 3 :Les IP résidentielles statiques d'ipipgo ont une longue période de validité, ce qui convient aux scénarios d'entreprise qui nécessitent un suivi à long terme.
Questions fréquemment posées
Q:Comment se fait-il qu'il manque quelques colonnes de données dans le fichier CSV exporté ?
R : Vérifiez si le champ de retour de l'API et la clé du dictionnaire dans le code correspondent exactement l'un à l'autre. Il est recommandé d'utiliser d'abord la sortie d'impression pour voir le format original des données.
Q : Quels sont les forfaits les plus rentables pour les besoins d'acquisition au niveau de l'entreprise ?
A : Données lourdes directes suripipgo Dynamic Residential (Business) PackageJe ne sais pas si vous êtes fan de ça, mais moi je le suis.
Q : Que dois-je faire si mon code signale une erreur de certificat SSL ?
R : Ajoutez verify=False à requests.get, mais cela n'est pas recommandé pour les environnements formels.
Pourquoi ipipgo ?
Expérience concrète d'utilisation dans ma propre maison :
1) J'ai été choqué que quelqu'un ait répondu à un ordre de travail à 3 heures du matin.
2) Il y a eu une demande d'IP en provenance d'un petit pays froid, et le service clientèle s'en est vraiment occupé.
3. il est très convivial et vous ne serez pas déconnecté si vous utilisez trop de trafic.
4. les différents services peuvent être mélangés et assortis sans qu'il y ait de consommation groupée
Enfin, n'oubliez pas d'utiliser la fonctionpandas drop_duplicates()Dé-pondération, ne pas laisser les IP en double gaspiller les ressources. Bien qu'il soit simple de transformer un fichier CSV, les détails en place peuvent éviter beaucoup de problèmes de suivi, en particulier pour les amis du commerce électronique transfrontalier, le choix du bon fournisseur de services d'IP proxy peut vraiment doubler l'efficacité du robot d'exploration.

