Disaggregiertes Computing für KI: Composable-Infrastructure-Architektur

Disaggregiertes Computing für KI: Composable-Infrastructure-Architektur

Disaggregiertes Computing für KI: Composable-Infrastructure-Architektur

Aktualisiert am 11. Dezember 2025

Update Dezember 2025: CXL-Memory-Pooling erreicht 3,8-fache Beschleunigung gegenüber 200G RDMA und 6,5-fache Beschleunigung gegenüber 100G RDMA für LLM-Inferenz. Jensen Huang: „Wenn man Beschleuniger überall in einem Rechenzentrum platzieren und für spezifische Workloads zusammenstellen und neu konfigurieren kann – das ist eine Revolution." Composable Infrastructure durchbricht feste Server-Verhältnisse, um dynamisch die exakten Anforderungen von KI-Workloads zu erfüllen.

CXL-Memory-Pooling erreicht eine 3,8-fache Beschleunigung im Vergleich zu 200G RDMA und eine 6,5-fache Beschleunigung im Vergleich zu 100G RDMA beim Teilen von Speicher zwischen GPU-Servern, die Large-Language-Model-Inferenz ausführen.[^1] Die Demonstration verwendete zwei Server mit NVIDIA H100 GPUs, die das OPT-6.7B-Modell ausführten, und zeigte, wie geteilter CXL-Speicher KI-Workloads über das hinaus beschleunigt, was traditionelle Netzwerke ermöglichen. Wie NVIDIAs Jensen Huang bemerkte: „Wenn man in der Lage ist, den konvergenten Server zu disaggregieren, wenn man Beschleuniger überall in einem Rechenzentrum platzieren und dann dieses Rechenzentrum für diesen spezifischen Workload zusammenstellen und neu konfigurieren kann – das ist eine Revolution."[^2]

Composable Infrastructure stellt einen architektonischen Ansatz dar, bei dem Compute-, Storage- und Netzwerkressourcen als abstrahierte Pools existieren, die unabhängig durch softwaredefinierte Kontrollebenen verwaltet werden.[^3] Im Gegensatz zu traditionellen Architekturen, die CPU, Speicher, Storage und Netzwerk an spezifische Server koppeln, behandelt Composable Infrastructure Hardware-Ressourcen als flexible Pools, die dynamisch über Workloads hinweg zugewiesen werden. Der Ansatz verspricht dramatische Verbesserungen bei der Ressourcenauslastung und Bereitstellungsflexibilität für KI-Infrastruktur.

Die Server-Grenze durchbrechen

Traditionelle Server bündeln feste Verhältnisse von CPU, Arbeitsspeicher, GPU und Storage. KI-Workloads entsprechen selten diesen festen Verhältnissen. Training-Jobs erfordern maximale GPU-Dichte bei relativ bescheidenen CPU-Anforderungen. Inferenz-Workloads benötigen möglicherweise mehr Speicher pro GPU als Standardkonfigurationen bieten. Vorverarbeitungs-Pipelines erfordern CPU- und Storage-Kapazität ohne GPUs.

Composable Infrastructure durchbricht die Server-Grenze und ermöglicht es Organisationen, virtuelle Systeme zusammenzustellen, die exakten Workload-Anforderungen entsprechen.[^4] Ein Training-Workload erhält eine Zusammenstellung aus 8 GPUs, minimaler CPU und hochbandbreitigem Storage. Ein Inferenz-Workload erhält 2 GPUs mit erweitertem Speicher. Die gleichen physischen Ressourcen bedienen beide Workloads zu verschiedenen Zeiten ohne Hardware-Neukonfiguration.

Das Disaggregations-Modell

Disaggregierte Architekturen trennen physische Knoten in dedizierte Ressourcentypen: Compute-Knoten, Memory-Knoten, GPU-Knoten und Storage-Knoten.[^5] Hochgeschwindigkeits-Fabrics verbinden die Knoten und ermöglichen es Software, logische Systeme aus verteilten physischen Ressourcen zusammenzustellen. Die Zusammenstellung erfolgt in Software ohne physische Neuverkabelung.

Ressourcen liegen nicht mehr brach und warten auf spezifische Workloads. Ein GPU-Knoten bedient Training-Jobs während der Spitzenzeiten und Inferenz-Jobs über Nacht. Memory-Knoten erweitern die Kapazität für speicherintensive Workloads, ohne jeden Server überzudimensionieren. Die Flexibilität verbessert die Auslastung bei gleichzeitiger Reduzierung der gesamten Hardware-Anforderungen.

CXL ermöglicht Memory-Pooling

Compute Express Link (CXL) bietet die cache-kohärente Verbindung, die praktische Speicher-Disaggregation ermöglicht.[^6] CXL bietet speichersemantischen Zugriff mit Latenz im Bereich von 200-500 Nanosekunden, verglichen mit etwa 100 Mikrosekunden für NVMe und über 10 Millisekunden für storage-basiertes Memory-Sharing.[^7] Die Latenzverbesserung ermöglicht wirklich dynamisches, feingranulares Memory-Sharing über Compute-Knoten hinweg.

Wie CXL-Memory-Pooling funktioniert

CXL-Memory-Pools schaffen eine neue Ebene von Hochgeschwindigkeits-, disaggregiertem Speicher, der die Art und Weise neu gestaltet, wie Organisationen KI-Infrastruktur aufbauen.[^8] CPU-Knoten greifen auf gepoolten Speicher zu, als wäre er lokal angeschlossen, wobei das CXL-Fabric Kohärenz und Datenbewegung transparent handhabt. Anwendungen sehen erweiterte Speicherkapazität ohne Modifikation.

Die CXL Memory Box ermöglicht Memory-Pooling über mehrere GPU-Server hinweg und erlaubt den Zugriff auf größere Memory-Pools als einzelne Server bieten.[^9] KI-Workloads, die Datensätze verarbeiten, die die lokale Speicherkapazität überschreiten, profitieren von gepooltem Speicher ohne Performance-Einbußen durch traditionellen Remote-Memory-Zugriff. Der Ansatz ermöglicht größere Batch-Größen und längere Kontext-Fenster ohne Aufrüstung einzelner Server.

Über Memory hinaus: vollständiges Ressourcen-Pooling

CXL ermöglicht mehr als Memory-Pooling. Der Standard unterstützt zusammenstellbare Verbindungen zwischen CPUs, Memory-Buffern und Beschleunigern.[^10] GPUs, FPGAs, DPUs und andere Beschleuniger verbinden sich über CXL-Fabric zur dynamischen Zuweisung über Workloads hinweg.

Die Vision erstreckt sich auf vollständige Ressourcen-Disaggregation, bei der keine Ressource permanent an eine andere gebunden ist. Organisationen bauen Ressourcen-Pools, die auf den aggregierten Bedarf dimensioniert sind, anstatt auf den Spitzenbedarf pro Workload. Software-Orchestrierung stellt in Echtzeit die passenden Ressourcen für jeden Workload zusammen.

Branchenlösungen

Mehrere Anbieter bieten Composable-Infrastructure-Lösungen an, die KI-Workload-Anforderungen adressieren.

Liqid Composable Platform

Liqid veröffentlichte komponierbare GPU-Server mit CXL 2.0 Memory-Pooling, das bis zu 100 TB disaggregierten zusammenstellbaren Speicher unterstützt.[^11] Die Plattform umfasst die EX-5410P 10-Slot GPU-Box, die 600W GPUs unterstützt, einschließlich NVIDIA H200, RTX Pro 6000 und Intel Gaudi 3 Beschleuniger. Matrix-Software orchestriert die Ressourcen-Zusammenstellung über die Hardware-Plattform hinweg.

Der Liqid-Ansatz verpackt Zusammenstellbarkeit in integrierte Lösungen, anstatt von Kunden zu verlangen, disaggregierte Systeme aus Komponenten zu entwerfen. Organisationen gewinnen Composability-Vorteile, ohne Expertise in Fabric-Design und Orchestrierungs-Softwareentwicklung aufbauen zu müssen.

IBM Research Composable Systems

IBM Research erforscht CXL-Standards zum Aufbau vollständig zusammenstellbarer Systeme über Hochgeschwindigkeits-, niedriglatenz Fabric.[^12] In ihrer Architektur existieren Ressourcen als Teil großer Pools, die über Netzwerk-Fabric verbunden sind, anstatt statisch in Servern gruppiert zu sein. Zusammenstellbare Ressourcen gruppieren sich, um Server-Abstraktionen nachzubilden, die spezifischen Workload-Anforderungen entsprechen.

Das Forschungsprogramm adressiert Herausforderungen einschließlich Fabric-Topologie-Design, Latenz-Optimierung und Software-Orchestrierung für zusammenstellbare KI-Infrastruktur. Die Arbeit fördert das Verständnis dafür, wie produktionsreife zusammenstellbare Systeme funktionieren sollten.

GigaIO und Microchip Zusammenarbeit

GigaIO und Microchip entwickelten cloud-fähige zusammenstellbare disaggregierte Infrastruktur, die PCIe- und CXL-Technologien kombiniert.[^13] Der Ansatz zielt auf Rechenzentren, die die Flexibilität von zusammenstellbaren Ressourcen mit den Performance-Eigenschaften von direkt angeschlossener Hardware benötigen.

Architektonische Überlegungen

Die Implementierung von Composable Infrastructure erfordert architektonische Entscheidungen, die Fabric-Design, Orchestrierungs-Software und Workload-Management umfassen.

Fabric-Topologie

Das Interconnect-Fabric bestimmt die erreichbare Latenz und Bandbreite zwischen disaggregierten Ressourcen. CXL-Fabrics müssen ausreichende Bandbreite für Speichergeschwindigkeits-Zugriffsmuster bieten und gleichzeitig die Latenz innerhalb akzeptabler Grenzen halten. Fabric-Topologie beeinflusst sowohl Performance als auch Kosten.

Switch-basierte Topologien bieten Flexibilität, fügen aber Latenz im Vergleich zu direkten Verbindungen hinzu. Der Kompromiss zwischen Topologie-Komplexität und Latenz-Budget hängt von spezifischen Workload-Anforderungen ab. Speicherintensive Workloads erfordern niedrigere Latenz als storage-intensive Workloads.

Orchestrierungs-Anforderungen

Software-Orchestrierung verwaltet die Ressourcen-Zusammenstellung, handhabt Zuweisungsanfragen, verfolgt den Ressourcen-Status und gewährleistet die Isolation zwischen Zusammenstellungen. Die Orchestrierungsschicht muss schnell genug reagieren, um dynamische Workload-Änderungen zu unterstützen, ohne zum Engpass zu werden.

Kubernetes-Integration ermöglicht es zusammenstellbaren Ressourcen, containerisierte KI-Workloads mit vertrauten Orchestrierungs-Primitiven zu bedienen. Der GPU Operator und ähnliche Erweiterungen verwalten Beschleuniger-Ressourcen, wobei Composability-Erweiterungen die dynamische GPU-Pool-Zuweisung ermöglichen.

Ausfalldomänen-Überlegungen

Disaggregation verändert die Eigenschaften von Ausfalldomänen. Ein ausgefallener Memory-Knoten betrifft alle Zusammenstellungen, die diesen Speicher nutzen, anstatt eines einzelnen Servers. Der Wirkungsradius von Komponentenausfällen erweitert sich im Vergleich zu konvergenten Server-Architekturen.

Redundanzstrategien müssen disaggregierte Ausfallmodi berücksichtigen. Memory-Pools erfordern Redundanz über physische Knoten hinweg. Zusammenstellungsrichtlinien sollten vermeiden, kritische Workloads auf gemeinsam genutzten Ressourcen zu konzentrieren. Monitoring muss den Zustand über das gesamte Fabric hinweg verfolgen, anstatt einzelner Server.

Expertise bei der Infrastruktur-Bereitstellung

Die Komplexität von Composable Infrastructure übersteigt traditionelle Server-Bereitstellung. Fabric-Installation, Performance-Validierung und Orchestrierungs-Konfiguration erfordern spezialisierte Expertise, die die meisten Organisationen intern nicht haben.

Introls 550 Außendiensttechniker unterstützen Organisationen bei der Implementierung fortgeschrittener Infrastruktur-Architekturen, einschließlich zusammenstellbarer und disaggregierter Systeme.[^14] Das Unternehmen belegte Platz #14 auf der Inc. 5000 Liste 2025 mit 9.594% Dreijahreswachstum, was die Nachfrage nach professionellen Infrastruktur-Dienstleistungen widerspiegelt.[^15] Composable-Bereitstellungen profitieren von Erfahrung mit Hochgeschwindigkeits-Fabric-Installation und -Validierung.

Die Bereitstellung von Infrastruktur an 257 globalen Standorten erfordert konsistente Praktiken unabhängig von der Geografie.[^16] Introl verwaltet Bereitstellungen, die 100.000 GPUs mit über 40.000 Meilen Glasfaser-Netzwerkinfrastruktur erreichen, und bietet operativen Umfang für Organisationen, die zusammenstellbare KI-Infrastruktur aufbauen.[^17]

Die zusammenstellbare Zukunft

Disaggregierte, ressourcenteilende Architekturen werden die Infrastruktur für die Verarbeitung der Petabytes an Daten ermöglichen, die für KI, maschinelles Lernen und andere datenintensive Technologien erforderlich sind.[^18] Die CXL-Adoption wird sich beschleunigen, während der Standard reift und Anbieterlösungen zunehmen.

Organisationen, die KI-Infrastruktur-Investitionen planen, sollten zusammenstellbare Architekturen für Bereitstellungen evaluieren, bei denen Workload-Variabilität Server mit festen Verhältnissen ineffizient macht. Die Flexibilitätsvorteile multiplizieren sich mit der Skalierung: Größere Bereitstellungen erzielen bessere Auslastungsverbesserungen durch Ressourcen-Pooling.

Der Übergang von konvergenter zu zusammenstellbarer Infrastruktur stellt einen fundamentalen Wandel in der Rechenzentrumsarchitektur dar. Organisationen, die die Composable-Bereitstellung beherrschen, gewinnen Flexibilitätsvorteile, die sich in Kosteneffizienz und Bereitstellungsagilität niederschlagen. Die Revolution, die Jensen Huang beschrieb, beginnt mit dem Verständnis, wie Disaggregation die Infrastrukturökonomie verändert.

Wichtige Erkenntnisse

Für Infrastruktur-Architekten: - CXL-Memory-Pooling erreicht 3,8-fache Beschleunigung gegenüber 200G RDMA und 6,5-fache gegenüber 100G RDMA für LLM-Inferenz-Workloads - CXL-Latenz: 200-500ns speichersemantischer Zugriff vs. ~100μs NVMe vs. >10ms storage-basiertes Sharing - Disaggregation ermöglicht: 8-GPU-Zusammenstellung für Training, 2 GPU + erweiterter Speicher für Inferenz, aus dem gleichen Hardware-Pool

Für Beschaffungsteams: - Liqid EX-5410P: 10-Slot GPU-Box, die 600W GPUs unterstützt (H200, RTX Pro 6000, Gaudi 3) mit 100TB CXL-Memory-Pooling - Traditionelle Server mit festen Verhältnissen verschwenden Ressourcen: Training braucht maximale GPU mit bescheidener CPU; Inferenz braucht mehr Speicher pro GPU - Composable reduziert die Gesamthardware durch Pooling von Ressourcen über Workloads hinweg; GPU-Knoten bedienen Training tagsüber, Inferenz nachts

Für Plattform-Ingenieure: - IBM Research erforscht CXL für vollständig zusammenstellbare Systeme über Hochgeschwindigkeits-, niedriglatenz Fabric - GigaIO/Microchip-Zusammenarbeit: cloud-fähige Composable-Lösung, die PCIe- und CXL-Technologien kombiniert - Kubernetes-Integration durch GPU-Operator-Erweiterungen ermöglicht zusammenstellbare Ressourcen mit vertrauter Orchestrierung

Für Betriebsteams: - Ausfalldomäne ändert sich: ausgefallener Memory-Knoten betrifft alle Zusammenstellungen, die ihn nutzen, vs. einzelner Server in konvergenter Architektur - Redundanzstrategien müssen disaggregierte Ausfallmodi berücksichtigen; Konzentration von Workloads auf gemeinsam genutzten Ressourcen vermeiden - Fabric-Zustandsüberwachung ersetzt Überwachung einzelner Server; Zusammenstellungsrichtlinien verhinder

[Inhalt für Übersetzung gekürzt]

Angebot anfordern_

Erzählen Sie uns von Ihrem Projekt und wir antworten innerhalb von 72 Stunden.

> ÜBERTRAGUNG_ABGESCHLOSSEN

Anfrage erhalten_

Vielen Dank für Ihre Anfrage. Unser Team wird Ihre Anfrage prüfen und innerhalb von 72 Stunden antworten.

ZUR BEARBEITUNG EINGEREIHT