IPIPGO proxy ip Optimisation du stockage des données : le stockage en colonnes Parquet en action

Optimisation du stockage des données : le stockage en colonnes Parquet en action

Lorsque le proxy IP atteint le stockage de données volumineuses, cette astuce pour vous aider à économiser l'espace du disque dur 80% Le proxy IP sec de cette ligne de frères comprend que chaque jour pour traiter les logs de demande massive peut être empilé dans une montagne. La semaine dernière, un ancien client s'est plaint d'avoir collecté des données de qualité IP sur le disque dur du serveur, et m'a demandé s'il existait une technologie noire. Aujourd'hui...

Optimisation du stockage des données : le stockage en colonnes Parquet en action

Lorsque l'adresse IP du proxy atteint le stockage de données volumineuses, cette astuce vous permet d'économiser de l'espace sur le disque dur de 80%.

Dry proxy IP cette ligne de frères comprendre, chaque jour pour traiter les logs de demande massive peuvent être empilés dans une montagne. La semaine dernière, un ancien client s'est plaint d'avoir collecté des données de qualité IP sur le disque dur du serveur, et m'a demandé s'il existait une technologie noire. Aujourd'hui, nous allons vous donner des compétences pratiques - Parquet stockage en colonne pour jouer autour de la compression des données, avec notre service proxy ipipgo, la garde de vos coûts de stockage directement réduit.

Pourquoi votre fichier journal est-il de plus en plus volumineux au fur et à mesure que vous le stockez ?

Le stockage traditionnel des journaux revient à mettre des vêtements dans une valise. Les enregistrements au format CSV doivent être répétés pour chaque champ. Par exemple, 1 million d'enregistrements de détection d'IP proxy, "transporteur" ce champ peut être mobile, Unicom, Telecom trois valeurs, mais CSV sera honnêtement stocké 1 million de fois. Cette fois, les avantages du stockage en colonnes sont apparus - les mêmes données ne sont stockées qu'une seule fois, mais aussi grâce à la compression des colonnes.

C'est là que le bât blesse :

Le pool dynamique d'adresses IP d'ipipgo génère des millions de requêtes chaque jour, et après les avoir stockées au format Parquet, la taille du fichier passe de 230 G à 37 G. En particulier pour l'appartenance IP et le numéro AS, qui ont un taux de répétition élevé, l'effet de compression est comparable à l'emballage sous vide.

Configuration pratique des datastores proxy

Voici une configuration réelle (notez la substitution de vos propres paramètres) :

terme de paramètre valeur recommandée instructions
format compressé SNAPPY Un choix équilibré pour les vitesses de lecture et d'écriture
regroupement des données 128MB Éviter de créer des fichiers fragmentés
code de champ code dictionnaire Fonctionne particulièrement bien pour les champs catégorisés

N'oubliez pas d'ajouter un convertisseur à la session d'écriture lorsque vous récupérez des données avec l'API d'ipipgo. Les parties python peuvent le faire :

 Faites comme s'il s'agissait d'un bloc de code
import pyarrow.parquet as pq
ip_data = get_ipipgo_apidata() call ipipgo interface
table = pa.Table.from_pandas(ip_data)
pq.write_table(table, 'ip_logs.parquet'.
              compression='snappy',
              version='2.6')

Trois techniques d'amélioration de l'efficacité

1. le zonage dynamique a sa place
partitionnement à deux niveaux par "date/emplacement IP", de sorte que les partitions non pertinentes peuvent être ignorées directement lors de l'interrogation. Par exemple, si vous vérifiez l'IP anormal à Shanghai, le système filtrera automatiquement les blocs de données des autres régions.

2. les coupes de colonnes à jouer 6
La requête ne lit que les colonnes nécessaires. Vous voulez compter le pourcentage d'IP d'opérateurs mobiles ? Le système n'analysera le fichier de données que dans la colonne "Opérateur".

3. séparation des données chaudes et froides
Les données chaudes des trois derniers jours sont stockées sur un disque SSD, et les données historiques sont transférées sur un disque mécanique. Les utilisateurs d'ipipgo ont testé que le temps de réponse des requêtes est réduit de 8 secondes à 1,2 seconde.

Foire aux questions QA

Q : Parquet est-il adapté au stockage de données en temps réel ?
R : Il est recommandé d'effectuer un traitement par micro-lots au niveau de la minute avec l'interface en temps réel d'ipipgo pour garantir la fraîcheur des données sans nuire à l'efficacité du stockage.

Q : Comment choisir l'algorithme de compression ?
R : Le taux de compression GZIP est élevé mais consomme de l'énergie, préférez SNAPPY. Si vous stockez des données d'archives historiques, vous pouvez envisager ZSTD.

Q : Comment migrer les données CSV existantes ?
R : Conversion par lots avec Spark ou Pandas, n'oubliez pas de nettoyer d'abord les données sales. ipipgo propose des scripts de migration prêts à l'emploi dans sa documentation technique.

Épargner, c'est gagner.

Depuis que j'ai mis cette solution à la disposition de mon client, il a réduit de moitié les frais de renouvellement de son serveur. Aujourd'hui, grâce au pool de serveurs mandataires de haute qualité d'ipipgo et aux solutions de stockage en colonnes, le traitement quotidien moyen de 200 millions de requêtes s'effectue sans pression. Certains frères peuvent se demander si le fait de s'engager dans la requête ne va pas ralentir le processus ? Disons que la dernière fois que leur directeur technique a regardé le deuxième rapport de réponse, il a failli penser qu'il s'agissait de la mauvaise base de données.

Le dernier point clé : choisir le bon fournisseur de services proxy est la base, les ressources IP de haute pureté d'ipipgo couplées à des solutions de stockage de données raisonnables, afin de permettre au projet big data de se dérouler de manière régulière et rapide. L'optimisation du stockage, c'est comme changer les pneus d'une voiture de course, il ne faut pas attendre d'avoir un pneu crevé pour penser à l'entretenir.

Cet article a été initialement publié ou compilé par ipipgo.https://www.ipipgo.com/fr/ipdaili/29740.html

scénario d'entreprise

Découvrez d'autres solutions de services professionnels

💡 Cliquez sur le bouton pour plus de détails sur les services professionnels

新春惊喜狂欢,代理ip秒杀价!

Fournisseur professionnel de services d'IP proxy étrangers-IPIPGO

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Nous contacter

Nous contacter

13260757327

Demande de renseignements en ligne. QQ chat

Courriel : hai.liu@xiaoxitech.com

Horaires de travail : du lundi au vendredi, de 9h30 à 18h30, jours fériés.
Suivre WeChat
Suivez-nous sur WeChat

Suivez-nous sur WeChat

Haut de page
fr_FRFrançais