
Erstens: Was nützen zehn Millionen gespeicherte Proxy-IP-Daten? Warum müssen wir optimieren?
Wir tun Crawler Bruder verstehen, Hand keine Millionen von Proxy-IP sind peinlich zu gehen. Aber wirklich gespeichert, um die zehn Millionen quantitative Zeit, das Problem kam -.Gewöhnliche Datenbanken fallen für Sie einfach auseinander.Neulich erzählte mir ein altes Eisen, dass sie MySQL benutzen, um 8 Millionen IPs zu speichern. Vor ein paar Tagen erzählte mir ein altes Eisen, dass sie MySQL verwenden, um 8 Millionen IPs zu speichern, und dass sie eine halbe Minute warten mussten, um die verfügbaren IPs zu überprüfen.
Das Schlimmste hier sind die drei Gruben:
1. die Abfragen kriechen wie eine Schildkröte, wenn das Datenvolumen groß ist
2 Der Speicherplatz auf der Festplatte wird knapp.
3. steigende Unterhaltskosten
Zweitens, die reale Schule der Lagerung Optimierung drei Achsen
Tipp Nr. 1: Das Ganze in Teile zerlegen
Legen Sie nicht alle Eier in einen Korb, lassen Sie uns die IPs nach geografischen Gesichtspunkten aufteilen. Zum Beispiel, die Peking Serverraum 1 Abschnitt der IP separat gespeichert, Shanghai Serverraum 2 Abschnitt der anderen Lagerung. Nehmen Sie ipipgo's Proxy-Pool als Beispiel, sie haben eineIntelligente Slicing-TechnologieEs kann IPs in derselben Region automatisch verpacken und speichern und bei der Überprüfung direkt das spezifische Slice lokalisieren, was die Geschwindigkeit um mehr als das Fünffache erhöhen kann.
Tipp Nr. 2: Überprüfen Sie den Arbeitsspeicher vor der Festplatte
Besorgen Sie sich einen zweistufigen Caching-Mechanismus und speichern Sie kürzlich verwendete IPs in Redis. Hier ist ein kleiner Trick:

Heiße Daten (die in den letzten 5 Minuten verwendet wurden) gehen in die erste Schicht, warme Daten (die am selben Tag verwendet wurden) gehen in die zweite Schicht, und nur der Rest geht an die Datenbank. Die gemessene Antwortzeit kann von 3 Sekunden auf 200 Millisekunden reduziert werden.
| Datentyp | Speicherort | Reaktionszeit |
|---|---|---|
| thermische Daten | Cache-Speicher | ≤50ms |
| Temperaturdaten | SSD-Festplatte | ≤200ms |
| kalte Daten | mechanischer Antrieb | ≥1s |
Tipp Nr. 3: Parallele Abfragen mit mehreren Threads
Seien Sie nicht dumm und prüfen Sie die Bibliothek in einem einzigen Thread, öffnen Sie 10 Threads gleichzeitig, um verschiedene Splits zu prüfen. Achten Sie darauf, dieAuszeitsicherungsmechanismusWenn ein Slice stecken bleibt, sollte man nicht zulassen, dass es die ganze Sache nach unten zieht. Die API-Schnittstelle von ipipgo hat dies eingebaut, um Abfrageaufgaben automatisch zuzuweisen. 1. zu den Wichtigen und Rücksichtslosen gehen 2. die Wahl des richtigen Komprimierungsalgorithmus 3. die große Trennung von heiß und kalt F: Hat die IP-Deduplizierung Auswirkungen auf die Nutzung? F: Wie lassen sich die komprimierten Daten schnell abfragen? F: Erhöhen sich die Wartungskosten durch die Scherbenspeicherung? Es ist zu viel Aufwand, die Speicheroptimierung auf eigene Faust zu erledigen, gehen Sie einfach direkt zumipipgo UnternehmenUnd es ist vollbracht. Ihr Heimspeichersystem hat drei tolle Funktionen: Als ich das letzte Mal dem Unternehmen eines Freundes bei der Umstellung auf ipipgo half, wurden die ursprünglichen monatlichen Serverkosten von 20.000 direkt auf 4.000 gesenkt. Der Schlüssel ist ihreDatenvisualisierungs-PanelMachen Sie es wie ein Dieb: IP-Nutzung, Überlebensraten und all diese Daten auf einen Blick. Wenn es um die Datenspeicherung geht, ist es besser, die professionelle Arbeit den Fachleuten zu überlassen. Es ist besser, Räder von Grund auf zu bauen, als auf den Schultern von Riesen zu stehen. Vor allem jetzt, wo der Markt für Proxy-IP so hart umkämpft ist. Wäre es da nicht eine gute Idee, Zeit und Geld zu sparen und es für den Ausbau Ihres Unternehmens einzusetzen?Drittens, Kompression schwarz Technologie zu sparen 80% Raum
Das gleiche IP-Segment wird durch CIDR dargestellt. Zum Beispiel, 192.168.1.1 bis 192.168.1.254, direkt als 192.168.1.0/24 geschrieben, spart 90% Speicherplatz.
Das sind die, die am besten funktionieren, wenn sie getestet werden:
- LZ4: schnelle Kompression, aber durchschnittliche Kompressionsrate
- Zstandard: der ausgeglichene Spieler
- Brotli: höchste Kompressionsrate, aber CPU-intensiv
Es wird empfohlen, je nach den Bedürfnissen des Unternehmens zu wählen, um mit LZ4 schneller zu sein und mit Brotli Platz zu sparen.
Übertragung von 30 Tagen ungenutzter IPs in einen kalten Speicher mit ipipgo'sIntelligente ArchivierungsfunktionAutomatisierte Verarbeitung. Die Kosten für die Speicherung kalter Daten können auf ein Zehntel der Kosten für heiße Daten gesenkt werden.IV. häufig gestellte Fragen QA
A: Es hat überhaupt keine Auswirkungen! Die Deduplizierung ist nur eine Optimierung auf der Speicherebene, das System wird sie automatisch erweitern, wenn sie tatsächlich aufgerufen wird.
A: Empfohlen für ipipgoLöse-es-und-finde-esTechnik, ohne den gesamten Datensatz zu dekomprimieren, um die gewünschten Datenstücke direkt zu finden.
A: Es ist kostengünstiger, eine Standardlösung zu verwenden. Die Speicherlösung von ipipgo kann beispielsweise in 10 Minuten mit einem Auto-Sharding-Cluster bereitgestellt werden.V. Empfehlungen für das Programm zur Rettung der Herzen und Köpfe
1. intelligenter Komprimierungsalgorithmus passt sich automatisch an Geschäftsszenarien an
2. verteiltes Abfrageprogramm, das Antworten im Millisekundenbereich unterstützt
3. automatisches Tiering von heißen und kalten Daten, Speicherkosten bis zu 80%

