Gedisaggregeerde Computing voor AI: Composable Infrastructuur Architectuur

Blake Crosley

Jan 06, 2026 7 min read Disclaimer

Gedisaggregeerde Computing voor AI: Composable Infrastructuur Architectuur

Bijgewerkt 11 december 2025

Update december 2025: CXL memory pooling bereikt 3,8x versnelling vs 200G RDMA, 6,5x vs 100G RDMA voor LLM-inferentie. Jensen Huang: "Wanneer je accelerators overal in een datacenter kunt plaatsen en kunt samenstellen en herconfigureren voor specifieke workloads—dat is een revolutie." Composable infrastructuur doorbreekt vaste serververhoudingen om dynamisch aan exacte AI-workloadvereisten te voldoen.

CXL memory pooling bereikt een 3,8x versnelling vergeleken met 200G RDMA en een 6,5x versnelling vergeleken met 100G RDMA bij het delen van geheugen tussen GPU-servers die large language model-inferentie draaien.[^1] De demonstratie gebruikte twee servers met NVIDIA H100 GPU's die het OPT-6.7B-model draaiden, en toonde hoe gedeeld CXL-geheugen AI-workloads versnelt voorbij wat traditionele networking mogelijk maakt. Zoals NVIDIA's Jensen Huang opmerkte: "Wanneer je in staat bent om de geconvergeerde server te disaggregeren, wanneer je accelerators overal in een datacenter kunt plaatsen en dan dat datacenter kunt samenstellen en herconfigureren voor deze specifieke workload—dat is een revolutie."[^2]

Composable infrastructuur vertegenwoordigt een architecturale aanpak waarbij compute-, opslag- en netwerkresources bestaan als geabstraheerde pools die onafhankelijk worden beheerd via software-defined control planes.[^3] In tegenstelling tot traditionele architecturen die CPU, geheugen, opslag en networking koppelen aan specifieke servers, behandelt composable infrastructuur hardwareresources als flexibele pools die dynamisch worden toegewezen aan workloads. De aanpak belooft dramatische verbeteringen in resource-utilisatie en deployment-flexibiliteit voor AI-infrastructuur.

De servergrens doorbreken

Traditionele servers verpakken vaste verhoudingen van CPU, geheugen, GPU en opslag. AI-workloads komen zelden overeen met deze vaste verhoudingen. Trainingsjobs vereisen maximale GPU-dichtheid met relatief bescheiden CPU-vereisten. Inferentie-workloads hebben mogelijk meer geheugen per GPU nodig dan standaardconfiguraties bieden. Preprocessing-pipelines vereisen CPU- en opslagcapaciteit zonder GPU's.

Composable infrastructuur doorbreekt de servergrens, waardoor organisaties virtuele systemen kunnen samenstellen die exact voldoen aan workloadvereisten.[^4] Een trainingsworkload ontvangt een compositie van 8 GPU's, minimale CPU en high-bandwidth opslag. Een inferentie-workload ontvangt 2 GPU's met uitgebreid geheugen. Dezelfde fysieke resources bedienen beide workloads op verschillende tijden zonder hardwareherconfiguratie.

Het disaggregatiemodel

Gedisaggregeerde architecturen scheiden fysieke nodes in dedicated resourcetypes: compute nodes, memory nodes, GPU nodes en storage nodes.[^5] High-speed fabrics verbinden de nodes, waardoor software logische systemen kan samenstellen uit gedistribueerde fysieke resources. De compositie gebeurt in software zonder fysieke herkabeling.

Resources zitten niet langer inactief te wachten op specifieke workloads. Een GPU-node bedient trainingsjobs tijdens piekuren en inferentiejobs 's nachts. Memory nodes breiden capaciteit uit voor geheugenintensieve workloads zonder elke server te over-provisioneren. De flexibiliteit verbetert de utilisatie terwijl de totale hardwarevereisten verminderen.

CXL maakt memory pooling mogelijk

Compute Express Link (CXL) biedt de cache-coherente interconnect die praktische geheugendisaggregatie mogelijk maakt.[^6] CXL biedt memory-semantic access met latency in het bereik van 200-500 nanoseconden, vergeleken met ongeveer 100 microseconden voor NVMe en meer dan 10 milliseconden voor storage-based memory sharing.[^7] De latencyverbetering maakt echt dynamische, fijnmazige geheugendeling tussen compute nodes mogelijk.

Hoe CXL memory pooling werkt

CXL memory pools creëren een nieuwe laag van high-speed, gedisaggregeerd geheugen die hervormt hoe organisaties AI-infrastructuur bouwen.[^8] CPU-nodes benaderen gepooled geheugen alsof het lokaal is aangesloten, waarbij de CXL-fabric coherentie en dataverplaatsing transparant afhandelt. Applicaties zien uitgebreide geheugencapaciteit zonder aanpassingen.

De CXL Memory Box maakt memory pooling mogelijk over meerdere GPU-servers, waardoor toegang tot grotere memory pools mogelijk is dan individuele servers bieden.[^9] AI-workloads die datasets verwerken die de lokale geheugencapaciteit overschrijden, profiteren van gepooled geheugen zonder prestatiepenalty's van traditionele remote memory access. De aanpak maakt grotere batchgroottes en langere contextvensters mogelijk zonder individuele servers te upgraden.

Voorbij geheugen: volledige resource pooling

CXL maakt meer mogelijk dan memory pooling. De standaard ondersteunt composable verbindingen tussen CPU's, memory buffers en accelerators.[^10] GPU's, FPGA's, DPU's en andere accelerators verbinden via CXL-fabric voor dynamische allocatie over workloads.

De visie strekt zich uit tot volledige resource-disaggregatie waarbij geen resource permanent gebonden is aan een andere. Organisaties bouwen resource pools gedimensioneerd voor geaggregeerde vraag in plaats van piekvraag per workload. Software-orkestratie stelt geschikte resources samen voor elke workload in real-time.

Industrieoplossingen

Verschillende leveranciers bieden composable infrastructuuroplossingen die voldoen aan AI-workloadvereisten.

Liqid composable platform

Liqid bracht composable GPU-servers uit met CXL 2.0 memory pooling die tot 100 TB aan gedisaggregeerd composable geheugen ondersteunt.[^11] Het platform omvat de EX-5410P 10-slot GPU-box die 600W GPU's ondersteunt, waaronder NVIDIA H200, RTX Pro 6000 en Intel Gaudi 3 accelerators. Matrix-software orkestreert resource-compositie over het hardwareplatform.

De Liqid-aanpak verpakt composability in geïntegreerde oplossingen in plaats van klanten te vereisen gedisaggregeerde systemen te ontwerpen vanuit componenten. Organisaties krijgen composability-voordelen zonder expertise op te bouwen in fabric-ontwerp en ontwikkeling van orkestratiesoftware.

IBM Research composable systems

IBM Research verkent CXL-standaarden voor het bouwen van volledig composable systemen via high-speed, low-latency fabric.[^12] In hun architectuur bestaan resources als onderdeel van grote pools verbonden via netwerkfabric in plaats van statisch gegroepeerd in servers. Composable resources groeperen samen om serverabstracties te recreëren die overeenkomen met specifieke workloadvereisten.

Het onderzoeksprogramma adresseert uitdagingen waaronder fabric-topologieontwerp, latency-optimalisatie en software-orkestratie voor composable AI-infrastructuur. Het werk bevordert het begrip van hoe productieschaal composable systemen moeten opereren.

GigaIO en Microchip samenwerking

GigaIO en Microchip ontwikkelden cloud-class composable gedisaggregeerde infrastructuur die PCIe- en CXL-technologieën combineert.[^13] De aanpak richt zich op datacenters die de flexibiliteit van composable resources vereisen met de prestatiekenmerken van direct-attached hardware.

Architecturale overwegingen

Het implementeren van composable infrastructuur vereist architecturale beslissingen die fabric-ontwerp, orkestratiesoftware en workloadbeheer omvatten.

Fabric-topologie

De interconnect fabric bepaalt de haalbare latency en bandbreedte tussen gedisaggregeerde resources. CXL-fabrics moeten voldoende bandbreedte bieden voor memory-speed toegangspatronen terwijl latency binnen acceptabele grenzen blijft. Fabric-topologie beïnvloedt zowel prestaties als kosten.

Switch-gebaseerde topologieën bieden flexibiliteit maar voegen latency toe vergeleken met directe verbindingen. De afweging tussen topologiecomplexiteit en latencybudget hangt af van specifieke workloadvereisten. Geheugenintensieve workloads vereisen lagere latency dan opslagintensieve workloads.

Orkestratievereisten

Software-orkestratie beheert resource-compositie, handelt allocatieverzoeken af, volgt resourcestatus en handhaaft isolatie tussen composities. De orkestratielaag moet snel genoeg reageren om dynamische workloadwijzigingen te ondersteunen zonder een bottleneck te worden.

Kubernetes-integratie maakt het mogelijk dat composable resources gecontaineriseerde AI-workloads bedienen met bekende orkestratieprimitieven. De GPU Operator en vergelijkbare extensies beheren accelerator-resources, met composability-extensies die dynamische GPU-poolallocatie mogelijk maken.

Overwegingen voor faaldomein

Disaggregatie verandert faaldomeineigenschappen. Een gefaalde memory node beïnvloedt alle composities die dat geheugen gebruiken in plaats van een enkele server. De blast radius van componentfalen breidt uit vergeleken met geconvergeerde serverarchitecturen.

Redundantiestrategieën moeten rekening houden met gedisaggregeerde faalmodi. Memory pools vereisen redundantie over fysieke nodes. Compositiebeleid moet vermijden kritieke workloads te concentreren op gedeelde resources. Monitoring moet gezondheid volgen over de fabric in plaats van individuele servers.

Expertise in infrastructuur-deployment

Composable infrastructuurcomplexiteit overschrijdt traditionele server-deployment. Fabric-installatie, prestatievalidatie en orkestratieconfiguratie vereisen gespecialiseerde expertise die de meeste organisaties intern missen.

Introl's 550 field engineers ondersteunen organisaties die geavanceerde infrastructuurarchitecturen implementeren, waaronder composable en gedisaggregeerde systemen.[^14] Het bedrijf stond op #14 in de 2025 Inc. 5000 met 9.594% driejaarsgroei, wat de vraag naar professionele infrastructuurdiensten weerspiegelt.[^15] Composable deployments profiteren van ervaring met high-speed fabric-installatie en validatie.

Het deployen van infrastructuur over 257 wereldwijde locaties vereist consistente praktijken ongeacht geografie.[^16] Introl beheert deployments die 100.000 GPU's bereiken met meer dan 40.000 mijl aan glasvezelnetwerkinfrastructuur, wat operationele schaal biedt voor organisaties die composable AI-infrastructuur bouwen.[^17]

De composable toekomst

Gedisaggregeerde, resource-sharing architecturen zullen infrastructuur mogelijk maken voor het verwerken van de petabytes aan data die nodig zijn voor AI, machine learning en andere data-intensieve technologieën.[^18] CXL-adoptie zal versnellen naarmate de standaard volwassener wordt en leveranciersoplossingen toenemen.

Organisaties die AI-infrastructuurinvesteringen plannen, moeten composable architecturen evalueren voor deployments waar workloadvariabiliteit vaste-ratio servers inefficiënt maakt. De flexibiliteitsvoordelen cumuleren met schaal: grotere deployments bereiken betere utilisatieverbeteringen door resource pooling.

De transitie van geconvergeerde naar composable infrastructuur vertegenwoordigt een fundamentele verschuiving in datacenterarchitectuur. Organisaties die composable deployment beheersen, krijgen flexibiliteitsvoordelen die zich vertalen in kostenefficiëntie en deployment-agiliteit. De revolutie die Jensen Huang beschreef begint met begrijpen hoe disaggregatie infrastructuureconomie verandert.

Belangrijkste inzichten

Voor infrastructuurarchitecten: - CXL memory pooling bereikt 3,8x versnelling vs 200G RDMA en 6,5x vs 100G RDMA voor LLM-inferentie workloads - CXL-latency: 200-500ns memory-semantic access vs ~100μs NVMe vs >10ms storage-based sharing - Disaggregatie maakt mogelijk: 8 GPU-compositie voor training, 2 GPU + uitgebreid geheugen voor inferentie, vanuit dezelfde hardwarepool

Voor inkoopteams: - Liqid EX-5410P: 10-slot GPU-box die 600W GPU's ondersteunt (H200, RTX Pro 6000, Gaudi 3) met 100TB CXL memory pooling - Traditionele vaste-ratio servers verspillen resources: training heeft max GPU nodig met bescheiden CPU; inferentie heeft meer geheugen per GPU nodig - Composable vermindert totale hardware door resources te poolen over workloads; GPU-nodes bedienen training overdag, inferentie 's nachts

Voor platform engineers: - IBM Research verkent CXL voor volledig composable systemen via high-speed, low-latency fabric - GigaIO/Microchip samenwerking: cloud-class composable die PCIe- en CXL-technologieën combineert - Kubernetes-integratie via GPU Operator-extensies maakt composable resources mogelijk met bekende orkestratie

Voor operationele teams: - Faaldomeinen veranderen: gefaalde memory node beïnvloedt alle composities die het gebruiken vs enkele server in geconvergeerde architectuur - Redundantiestrategieën moeten rekening houden met gedisaggregeerde faalmodi; vermijd concentratie van workloads op gedeelde resources - Fabric-gezondheidsmonitoring vervangt individuele servermonitoring; compositiebeleid voorkomt

[Inhoud ingekort voor vertaling]

Gedisaggregeerde Computing voor AI: Composable Infrastructuur Architectuur

De servergrens doorbreken

Het disaggregatiemodel

CXL maakt memory pooling mogelijk

Hoe CXL memory pooling werkt

Voorbij geheugen: volledige resource pooling

Industrieoplossingen

Liqid composable platform

IBM Research composable systems

GigaIO en Microchip samenwerking

Architecturale overwegingen

Fabric-topologie

Orkestratievereisten

Overwegingen voor faaldomein

Expertise in infrastructuur-deployment

De composable toekomst

Belangrijkste inzichten

You Might Also Like

AIOps voor Datacenters: LLM's Gebruiken voor het Beheren van...

Load Balancing voor AI-inferentie: Verzoeken Verdelen over 1...

Feature Stores en MLOps-databases: Infrastructuur voor Produ...

Offerte aanvragen_

Aanvraag Ontvangen_