KI-optimierter Speicher: NVMe-oF, GPUDirect & Parallele Dateisysteme 2025

Der KI-Speichermarkt wächst von 36 Mrd. $ auf 322 Mrd. $ bis 2035. DDN liefert 4 TB/s an NVIDIA Eos. GPUDirect, NVMe-oF und parallele Dateisysteme versorgen hungrige GPU-Cluster.

KI-optimierter Speicher: NVMe-oF, GPUDirect & Parallele Dateisysteme 2025

KI-optimierter Speicher: Der Technologie-Stack zur Versorgung von GPU-Clustern

Aktualisiert am 11. Dezember 2025

Update Dezember 2025: Der KI-Speichermarkt wächst von 36 Mrd. $ (2025) auf 322 Mrd. $ bis 2035. DDN EXAScaler liefert 4 TB/s an den NVIDIA Eos Supercomputer. GPUDirect Storage ermöglicht direkte Transfers mit über 40 GB/s; NVIDIAs SCADA-Technologie vom November 2025 eliminiert die letzte CPU-Beteiligung. NVMe-oF wächst mit einer jährlichen Wachstumsrate von 27,8%, da Unternehmen PCIe-Level-Latenzen über Netzwerke hinweg ausweiten.

Speicherengpässe lassen GPUs im Leerlauf. Eine einzelne DDN EXAScaler-Implementierung liefert vier Terabyte pro Sekunde an NVIDIAs Eos-Supercomputer und versorgt 18,4 Exaflops KI-Leistung von 576 DGX H100-Systemen.¹ Wenn GPUs zehntausende Dollar pro Einheit kosten und Trainingscluster tausende Beschleuniger erreichen, verschwendet eine Speicherinfrastruktur, die den Datendurchsatz nicht aufrechterhalten kann, Millionen an Rechenressourcen. Der KI-gestützte Speichermarkt spiegelt die Dringlichkeit wider – er soll von 36,28 Milliarden Dollar im Jahr 2025 auf 321,93 Milliarden Dollar bis 2035 wachsen, bei einer jährlichen Wachstumsrate von 24,4%.²

Moderne KI-Workloads erfordern Speicherleistungsmerkmale, die sich grundlegend von traditionellen Unternehmensanwendungen unterscheiden. Trainingsdatensätze im Petabyte-Bereich erfordern anhaltenden sequenziellen Durchsatz. Checkpoint-Operationen müssen in Sekunden abgeschlossen sein, um Trainingsunterbrechungen zu minimieren. Inferenz-Workloads erzeugen unvorhersehbare I/O-Muster, die kleine zufällige Lesezugriffe mit Burst-Schreibvorgängen mischen. Unternehmen, die KI-Infrastruktur in großem Maßstab einsetzen, bewerten Speichersysteme jetzt anhand von GPU-Auslastungsmetriken statt traditioneller IOPS-Benchmarks.

NVMe-oF erweitert Flash-Leistung über das Netzwerk

NVMe over Fabrics (NVMe-oF) ermöglicht Hochleistungs-Workloads in großem Maßstab durch latenzarmes Teilen von NVMe-SSDs über Hochleistungs-Ethernet- oder InfiniBand-Fabrics.³ Das Protokoll liefert Leistung ähnlich wie lokal angeschlossene NVMe-SSDs und ermöglicht es Unternehmen gleichzeitig, Speicherressourcen unabhängig von Compute-, GPU- und Speicherzuweisung zu skalieren.⁴

Traditionelle Speicherprotokolle fügen Millisekunden Latenz durch Software-Stacks hinzu, die für rotierende Festplatten optimiert sind. NVMe-oF eliminiert diese Schichten und erreicht Latenzen im Bereich von zehn Mikrosekunden, selbst bei Skalierung auf tausende Knoten mit RDMA-Transporten.⁵ TCP-Transporte ermöglichen den Einsatz über Standard-Ethernet und liefern dennoch erhebliche Leistungsverbesserungen im Vergleich zu Legacy-NFS- oder iSCSI-Protokollen.⁶

Für KI-Infrastruktur ist NVMe-oF dort wichtig, wo jede Mikrosekunde zählt: Trainingspipelines, in denen GPUs auf Daten warten, Checkpoint-Operationen, die innerhalb strenger Zeitfenster abgeschlossen werden müssen, und Inferenz-Workloads, die Reaktionszeiten unter einer Millisekunde erfordern.⁷ Veröffentlichte Benchmarks zeigen 351 GiB pro Sekunde sequentielle Lesevorgänge mit GPUDirect Storage-Integration, wobei Latenzreduzierungen die effektive GPU-Auslastung bei I/O-gebundenen Konfigurationen voraussichtlich um das 2- bis 3-fache steigern werden.⁸

Die Branchenadoption beschleunigt sich bis 2025. Western Digital und Ingrasys etablierten im Mai 2025 eine Partnerschaft, die GPU-Server-Expertise mit NVMe-oF- und Fabric-Attached-Storage-Fähigkeiten kombiniert.⁹ Hitachi Vantara brachte im November 2025 Virtual Storage Platform One Block High End auf den Markt, eine All-Flash-NVMe-Block-Speicherlösung der nächsten Generation für unternehmenskritische und KI-Workloads.¹⁰ NVMe-oF-Systeme prognostizieren eine jährliche Wachstumsrate von 27,80%, da Unternehmen PCIe-Level-Latenzen über Netzwerke ausweiten, um die GPU-Auslastung in verteilten KI-Clustern zu steigern.¹¹

GPUDirect Storage eliminiert den CPU-Engpass

NVIDIAs GPUDirect Storage ermöglicht den direkten Datentransfer vom Speicher zum GPU-Speicher ohne Umweg über CPU und Systemspeicher.¹² Die Technologie beseitigt eine grundlegende Leistungsbarriere in KI-Trainingspipelines, wo große Datensätze kontinuierlich in den GPU-Speicher zur Verarbeitung fließen müssen.

Deep-Learning-Training beinhaltet häufige Checkpoint-Operationen, bei denen trainierte Netzwerkgewichte in verschiedenen Trainingsphasen auf Festplatte gespeichert werden. Per Definition liegt Checkpointing im kritischen I/O-Pfad.¹³ Ein 100-Milliarden-Parameter-Modell erzeugt etwa 800 GB bis 1,6 TB pro Checkpoint, und Training in großem Maßstab mit 16.000 Beschleunigern erfordert 155 Checkpoints täglich.¹⁴ Um den Overhead unter 5% zu halten, müssen Checkpoint-Operationen in dieser Größenordnung in unter 28 Sekunden abgeschlossen sein, schrumpfend auf 4,4 Sekunden für 100.000-Beschleuniger-Cluster.¹⁵

GPUDirect Storage adressiert diese Anforderungen durch direkte Transferraten von über 40 GBps vom Speicher zum GPU-Speicher.¹⁶ Die Lenovo/NVIDIA-Referenzarchitektur liefert 20 GBps pro Knoten mit linearen Skalierungsfähigkeiten und unterstützt LLM-Training, Inferenz und Checkpoint-Funktionen.¹⁷ NVIDIAs SCADA-Technologie vom November 2025 führt GPUDirect weiter, indem sie sogar den Speicher-Kontrollpfad auf die GPU verlagert und die letzte CPU-Beteiligung an Speicheroperationen eliminiert.¹⁸

Hardware-Implementierungen verbreiten sich im gesamten Ökosystem. Der HighPoint Rocker 7638D-Adapter ermöglicht GPUDirect Storage-Workflows mit bis zu 64 GB/s Bandbreite und vorhersagbarer Latenz, besonders nützlich für große Trainingsdatensätze.¹⁹ Speicheranbieter wie DDN, Pure Storage, WEKA und VAST Data zertifizieren ihre Plattformen für die GPUDirect-Integration mit NVIDIA DGX- und HGX-Systemen.

Parallele Dateisysteme treiben Exascale-KI an

Parallele Dateisysteme verteilen Daten und Metadaten über mehrere Server und ermöglichen einen aggregierten Durchsatz, der mit der Anzahl der Speicherknoten skaliert. Drei Plattformen dominieren KI- und HPC-Implementierungen: Lustre, IBM Storage Scale (früher GPFS) und WekaFS.

Lustre hält 41% Marktanteil bei parallelen Dateisystemen, gefolgt von IBM Storage Scale mit 17% und WEKA mit 6%.²⁰ Jede Architektur optimiert für unterschiedliche Workload-Charakteristiken.

Lustre glänzt in Umgebungen, die von großen sequenziellen Operationen dominiert werden, einschließlich wissenschaftlicher Simulationen und Video-Rendering-Pipelines.²¹ Die Architektur priorisiert anhaltende Bandbreite über Small-File-Handling und erreicht nahezu lineare Leistungsskalierung mit zusätzlichen Object Storage Servers (OSS) für bandbreitenintensive Workloads.²² Lustre funktioniert am besten mit InfiniBand-Fabrics und treibt die meisten Supercomputer der Welt an. DDNs EXAScaler-Produkt bündelt Lustre mit Leistungsoptimierungen und Enterprise-Management-Funktionen.

IBM Storage Scale bietet überlegene Leistung bei metadatenintensiven Operationen.²³ Der verteilte Metadatenansatz erstellt kleine Dateien, modifiziert Attribute und strukturiert komplexe Verzeichnisse effizienter als Lustres zentralisierte Metadatenserver-Architektur.²⁴ Storage Scale liefert konsistente Leistung über variierende I/O-Muster und integriert sich in NVIDIA DGX SuperPOD-Referenzarchitekturen mit GPUDirect-Unterstützung.²⁵

WekaFS zielt speziell auf KI/ML-Workloads ab und wurde von Anfang an für NVMe-SSDs konzipiert, anstatt von Festplattenarchitekturen nachgerüstet zu werden.²⁶ WEKAs verteilte Metadaten eliminieren den Metadatenserver-Engpass, der ältere parallele Dateisysteme einschränkt.²⁷ Benchmarks zeigen, dass WekaFS FSx for Lustre bei ähnlichen Kapazitäten um 300% oder mehr übertrifft, mit I/O-Latenzen, die manchmal weniger als 30% konkurrierender Lösungen betragen.²⁸ WekaFS unterstützt pNFS-, SMB- und S3-Protokolle und ermöglicht Multiprotokoll-Zugriffsmuster, die in KI-Pipelines üblich sind.

DDN, Pure Storage und VAST Data führen die Anbieter-Landschaft an

Drei Speicheranbieter dominieren KI-Infrastruktur-Implementierungen mit Produkten, die speziell für GPU-Cluster-Workloads entwickelt wurden.

DDN treibt die prominentesten KI-Supercomputer an. NVIDIAs Eos-System umfasst 576 DGX H100-Systeme mit 48 DDN A³I-Appliances, die 12 Petabyte Speicher bei vier Terabyte pro Sekunde Durchsatz in weniger als drei Racks mit nur 100 kW Leistung liefern.²⁹ DDN kündigte im März 2025 die Blackwell-Zertifizierung an und optimierte EXAScaler und Infinia 2.0 für DGX SuperPOD mit DGX GB200- und DGX B200-Systemen.³⁰ Ein einzelnes DDN AI400X2-Turbo erreicht das 10-fache der Mindestanforderung von 1 GBps/GPU für sowohl Lese- als auch Schreiboperationen gepaart mit DGX B200 und liefert bis zu 96% Netzwerkauslastung.³¹ DDNs Partnerschaft mit Yotta für Indiens souveräne KI-Initiative setzte EXAScaler AI400X3-Systeme ein, die 8.000 NVIDIA B200-GPUs antreiben.³²

Pure Storage führte FlashBlade//EXA im März 2025 ein und projiziert mehr als 10 Terabyte pro Sekunde Leseleistung in einem einzigen Namespace.³³ Die Plattform zielt auf Kunden ab, die zwischen einer und zehntausenden GPUs betreiben und 1 TB/s bis 50 TB/s Speicherdurchsatz benötigen.³⁴ FlashBlade//EXAs disaggregierte Architektur skaliert Daten und Metadaten unabhängig mit Drittanbieter-Datenknoten und ermöglicht massive parallele Leistung.³⁵ Pure Storage erlangte die FlashBlade//S500-Zertifizierung mit NVIDIA DGX SuperPOD und integrierte das NVIDIA AI Data Platform-Referenzdesign mit GPUDirect Storage-Unterstützung.³⁶

VAST Data erreichte bis Mai 2025 2 Milliarden Dollar an kumulierten Software-Buchungen.³⁷ Die DASE-Architektur (Distributed and Shared Everything) liefert bahnbrechende Parallelität für 100k+ GPU-Cluster bei Terabytes pro Sekunde und eliminiert KI-Datenengpässe.³⁸ VAST beansprucht über 50% niedrigere Gesamtbetriebskosten für anspruchsvolle KI-Workloads durch radikale Effizienz.³⁹ Die Plattform unterstützt Exabytes an All-Flash-Speicher mit branchenstandardmäßigem NFS-, SMB-, S3- und Kubernetes-CSI-Zugriff.⁴⁰ Microsoft Azure kündigte im November 2025 die Integration mit VASTs AI Operating System an, um lokale KI-Pipelines in GPU-beschleunigte Cloud-Infrastruktur zu erweitern.⁴¹

Checkpoint-Architekturen balancieren Geschwindigkeit und Zuverlässigkeit

Modell-Checkpointing erzeugt die anspruchsvollsten Speicheranforderungen im KI-Training. Checkpoint-Größen skalieren mit der Parameteranzahl: Etwa 8 bis 12 Bytes pro Parameter für Mixed-Precision-Training bedeutet, dass ein 100-Milliarden-Parameter-Modell 800 GB bis 1,2 TB pro Checkpoint erzeugt.⁴² Frequenzanforderungen intensivieren sich mit Clustergröße und erreichen Checkpoints alle 1,5 Minuten für 100.000-Beschleuniger-Implementierungen.⁴³

Moderne Trainingssysteme verwenden gestufte Checkpoint-Architekturen. Schnelle Checkpoints schreiben alle paar Minuten auf knotenlokalen NVMe-Speicher. Mittlere Checkpoints propagieren alle 30 Minuten zu gemeinsamen Dateisystemen. Dauerhafte Checkpoints erreichen Object Storage wie Amazon S3 nur alle paar Stunden.⁴⁴ Asynchrones Checkpointing ermöglicht es dem Training fortzufahren, während Hintergrundprozesse lokalen Speicher zu globalen Tiers entleeren.⁴⁵

Globale Checkpoint-Bandbreitenanforderungen bleiben selbst im großen Maßstab überraschend bescheiden. Die Analyse von 85.000 Checkpoints über reale Systeme hinweg ergab, dass die Bandbreite typischerweise deutlich unter 1 TB/s liegt, selbst für Billionen-Parameter-Modelle.⁴⁶ Die Checkpoint-Bandbreite pro GPU sinkt, wenn die Modellgröße wächst, weil nur ein einzelnes datenparalleles Replikat während des Checkpointings schreibt, unabhängig von der Gesamtclustergröße.⁴⁷

Die gemeldeten Durchsatzwerte variieren erheblich zwischen Implementierungen. Gemini berichtet 3,13 GB/s Checkpoint-Durchsatz. Microsofts Nebula (DeepSpeed) erreicht 1-4 GB/s. Diese Zahlen spiegeln die architektonischen Kompromisse zwischen Checkpoint-Frequenz, Speicher-Tier und akzeptablem Trainings-Overhead wider.⁴⁸

Computational Storage verlagert Verarbeitung zu den Daten

Computational Storage Devices (CSDs) betten Rechenfunktionen in Speicherhardware ein und verarbeiten Daten vor der Übertragung, um I/O-Bandbreitenanforderungen zu reduzieren.⁴⁹ Die Architektur erweist sich als besonders wertvoll für Edge-KI-Implementierungen mit begrenzten Rechenressourcen, strengen Strombudgets und Echtzeitlatenzanforderungen.⁵⁰

Fortgeschrittene CSD-Anwendungen umfassen das Ausführen von Datenbanken, Machine-Learning-Modellen und Analysen direkt auf Speichergeräten. Einige Implementierungen unterstützen vollständige Linux-Betriebssysteme und ermöglichen KI/ML-Inferenz direkt auf dem Laufwerk.⁵¹ Edge-Implementierungen profitieren von der anfänglichen Verarbeitung auf der Speicherebene, die Ergebnisse filtert, bevor sie an Hauptprozessoren übertragen werden.⁵²

Die Technologie adressiert die einzigartigen Einschränkungen von Edge-KI. Die Ausführung von Inferenz verlagert sich zunehmend auf Edge-Geräte, um Zugänglichkeit, Anpassbarkeit und Effizienz zu verbessern.⁵³ Cisco lancierte im November 2025 Unified Edge, eine integrierte Computing-Plattform, die Compute, Networking, Speicher und Sicherheit für Echtzeit-KI zusammenführt

[Inhalt für Übersetzung gekürzt]

Angebot anfordern_

Erzählen Sie uns von Ihrem Projekt und wir antworten innerhalb von 72 Stunden.

> ÜBERTRAGUNG_ABGESCHLOSSEN

Anfrage erhalten_

Vielen Dank für Ihre Anfrage. Unser Team wird Ihre Anfrage prüfen und innerhalb von 72 Stunden antworten.

ZUR BEARBEITUNG EINGEREIHT