JSON et CSV : comment choisir ? L'ancien pilote du crawler disait ceci
Les confrères engagés dans la collecte de données ont dû rencontrer ce genre d'embrouille : descendre les données IP du proxy avec le stockage JSON ou le stockage CSV ? Aujourd'hui, nous allons prendre l'expérience de la gestion des données de la plateforme ipipgo pour nous pencher sur cette question.
I. Format de complexité structurelle
Si vous utilisez des données IP de proxy.Avec des informations multicouches imbriquéespar exemple, comme ceci :
{"ip" : "1.1.1.1", "location":{"country" : "Singapore", "ASN" : "AS1234"}, "response_time" :[56,59,61]}.
Cette fois-ci, vous devez utiliser JSON, car le format CSV (tableau plat) ne peut tout simplement pas convenir à ce type d'information.Données structurées en arborescenceLes données de retour de l'API d'ipipgo sont spécifiquement au format JSON, car elles doivent contenir le type d'IP, l'état de disponibilité, la localisation géographique et plus d'une douzaine d'autres paramètres.
Deuxièmement, l'ampleur des données porte sur le volume
Toute personne ayant effectué un test de stress sait que lorsqu'une seule journée de collecte est nécessaire, il est possible d'obtenir un résultat positif.Percer les millions d'eurosL'avantage du CSV en termes de volume devient évident lorsque Nous l'avons comparé avec des données réelles :
mise en forme | 100 000 données | taux de compression |
---|---|---|
JSON | 87MB | 62% |
CSV | 23MB | 81% |
Si vous utilisez ipipgo.Service d'agent dynamiqueIl est recommandé d'utiliser le format CSV pour stocker la liste des pools d'adresses IP, qui peut être chargée plus de trois fois plus rapidement.
III - Flexibilité du traitement des données
JSON est très facile à analyser dans le programme, mais changer le nom d'un champ nécessite une mise à jour complète. La dernière fois que nous avons modifié l'identifiant de l'état des nœuds d'ipipgo, nous avons utilisé CSV pour remplacer directement l'en-tête d'une table et nous avions terminé, JSON doit écrire un remplacement régulier par lots.Le gars des opérations est presque devenu chauve..
IV. comparaison de la lisibilité humaine
Lorsque vous montrez les données à vos collègues opérationnels, le format CSV peut être ouvert dans Excel en double-cliquant, tandis que le format JSON doit encore être installé à l'aide d'un outil d'analyse. Mais aujourd'hui, l'expérience d'ipipgo en matière de gestion a permis d'améliorer la qualité des données.Prise en charge du double formatCela vous épargne beaucoup d'efforts, car vous pouvez à tout moment changer le format que vous souhaitez télécharger.
Temps consacré à l'assurance qualité
Q : Quel format dois-je choisir pour collecter des données avec un proxy IP ?
R : Vous avez besoin de métadonnées complètes en JSON, tant que les informations de base sont disponibles en CSV. Comme pour les données de surveillance de la disponibilité des adresses IP d'ipipgo, nous recommandons d'utiliser le CSV pour stocker l'horodatage, l'adresse IP et le temps de réponse, trois colonnes étant suffisantes.
Q : Les données seront-elles perdues lors de la conversion entre les deux formats ?
R : Les données imbriquées à plusieurs niveaux vers CSV perdront certainement leur structure, il est recommandé d'utiliser l'ipipgo fourni par l'applicationOutils de conversion de formatL'outil de gestion des données géographiques permet d'étendre automatiquement les informations géographiques contenues dans JSON en un fichier CSV à plusieurs colonnes.
Q : Que dois-je faire si je dois traiter chaque jour plus de 10G de données proxy IP ?
R : Ne vous préoccupez pas du format à ce stade, passez directement à la page d'ipipgo.Service de synchronisation des bases de données en nuageLes données d'origine sont automatiquement vidées dans le format spécifié et vous pouvez également définir des règles de déduplication automatique.
Et enfin, pour être honnête, la sélection des formats est commeporter des chaussuresCela dépend du scénario de l'entreprise. Quoi qu'il en soit, si vous utilisez le service proxy d'ipipgo, vous pouvez économiser beaucoup d'efforts en exportant des données et en changeant de format en un seul clic. En particulier lors de la collecte distribuée, la flexibilité du changement de format des données peut vraiment améliorer l'efficacité.