
Une formation pratique vous apprend à changer les données IP du proxy de JSON à CSV.
Ceux d'entre vous qui travaillent souvent avec des IP proxy ont dû rencontrer cette situation : la liste d'IP que vous obtenez du fournisseur de services est au format JSON, mais le crawler que vous utilisez ne reconnaît que les tableaux CSV. Cette incompatibilité de format est comme essayer de manger un steak avec des baguettes - pas impossible, mais toujours gênant.
Prenons l'exemple de nos utilisateurs ipipgo, les données proxy exportées depuis le backend sont par défaut une structure JSON normale. Par exemple, cela ressemble à ceci :
{
"proxies" : [
{
"ip" : "203.34.56.78",
"protocol" : "socks5", "location" : "Xuzhou, Jiangsu Province", "protocol" : "socks5", "socks5", "socks5".
"location" : "Xuzhou, Jiangsu"
}, { "ip" : "203.34.56.78
{
"ip" : "118.23.45.67", "port" : 3128, {
"protocol" : "http", "location" : "Shenzhen, Guangdong" }, { "ip" : "118.23.45.67", "port" : 3128, "protocol" : "http", "location" : "Xuzhou, Jiangsu" }
"location" : "Shenzhen, Guangdong"
}
]
}
Mais si vous voulez insérer ces données dans Excel pour les trier, ou les importer dans un logiciel qui ne mange que du format CSV, vous devez procéder à un changement de format. Nous allons vous enseigner deux méthodes de conversion pratiques, afin de garantir une plus grande sécurité que l'utilisation de sites de conversion en ligne - après tout, les données sensibles du proxy IP ne doivent pas être simplement transmises à un site tiers.
Python est livré avec un excellent convertisseur de format.
Préparez un éditeur de texte et créez un nouveau fichier .py. Le code suivant est un script de conversion écrit par notre technicien spécifiquement pour les utilisateurs d'ipipgo :
import csv
import json
N'oubliez pas de changer le chemin d'accès à votre propre fichier
avec open('ipipgo_data.json') comme f :
data = json.load(f)['proxies']
csv_columns = ['ip', 'port', 'protocol', 'location']
with open('output.csv', 'w', newline='') as csvfile :
writer = csv.DictWriter(csvfile, fieldnames=csv_columns)
writer.writeheader()
for row in data.
writer.writerow(row)
Après avoir exécuté cette procédure, il y aura plusieurs fichiers output.csv dans le même niveau de répertoire. Ouvrez-les avec Excel pour voir le tableau normal, mais aussi par région, par type de protocole pour effectuer un tri. Par exemple, si vous voulez trouver un agent socks5 dans le Jiangsu, vous pouvez passer en revue le tableau directement et y parvenir.
Pourquoi est-il recommandé de stocker les adresses IP de proxy au format CSV ?
Voici quelques avantages concrets :
| prendre | Les points faibles de JSON | Avantages du CSV |
|---|---|---|
| Filtrage des données | Rédiger des requêtes complexes | Bouton de filtrage des points directs d'Excel |
| importation par lots | Vous devez écrire votre propre code d'analyse. | La plupart des logiciels prennent directement en charge |
| maintenance manuelle | Des parenthèses facilement mal orthographiées | Aussi intuitif que de remplir un formulaire |
En particulier avec le pool de proxy d'ipipgo, il est souvent nécessaire de filtrer différentes régions de l'IP en fonction des besoins de l'entreprise. en CSV, même si les collègues chargés de l'opération ne seront pas aveugles, après tout, l'opération de table est une volonté de la personne.
Foire aux questions QA
Q : Qu'en est-il des données imbriquées dans JSON ?
Par exemple, certains agents ont des informations de validation dans leurs données :
"auth" : {
"username" : "ipipgo_user",
"password" : "123456"
}
Ajoutez un champ comme 'auth.username' à csv_columns lors du traitement, et le code le développera dans une colonne séparée avec le traitement correspondant.
Q : Que dois-je faire si je rencontre des codes désordonnés lors de la conversion ?
Ajouter un paramètre d'encodage à la fonction open, par exemple encoding='utf-8-sig', ce qui est particulièrement utile lorsqu'il s'agit de régions proxy chinoises.
Q : Puis-je passer automatiquement et régulièrement d'un système à l'autre ?
Utilisez le planificateur de tâches de Windows ou la crontab de Linux avec l'API d'ipipgo pour obtenir automatiquement la dernière liste de proxy, et mettre à jour le fichier CSV automatiquement à l'aube chaque jour.
Avantages cachés pour les utilisateurs d'ipipgo
En fait, nous avons préparé uneCanal d'exportation rapideSi vous souhaitez convertir vos données au format CSV, vous pouvez cliquer sur [Data Export] → [CSV Format] après vous être connecté et obtenir un fichier de formulaire prêt à l'emploi en trois secondes. Cette fonction est spécialement conçue pour les utilisateurs qui doivent souvent procéder à l'analyse des données, ce qui n'est pas le cas avec un script de conversion.
Si vous avez besoin d'une interface avec d'autres systèmes de la scène, il est recommandé d'utiliser directement l'API ipipgo, dans le paramètre de demande ajouter un format=csv, le retour est un flux de données CSV prêt à l'emploi, ce qui élimine la nécessité d'étapes de conversion. Des documents spécifiques dans le contexte de l'utilisateur dans le [Guide de développement], selon le code d'exemple peut être utilisé pour modifier.
Enfin, j'aimerais dire une chose : les données IP du proxy impliquent la sécurité du compte, il faut donc faire attention à l'emplacement de stockage du fichier lors de la conversion du format. En particulier avec les informations d'authentification du proxy, n'oubliez pas de supprimer les fichiers temporaires à temps après la conversion, ne laissez pas de porte dérobée pour ceux qui sont intéressés.

