L'informatique désagrégée pour l'IA : architecture d'infrastructure composable

L'informatique désagrégée pour l'IA : architecture d'infrastructure composable

L'informatique désagrégée pour l'IA : architecture d'infrastructure composable

Mis à jour le 11 décembre 2025

Mise à jour décembre 2025 : Le pooling de mémoire CXL atteint une accélération de 3,8x par rapport au RDMA 200G et de 6,5x par rapport au RDMA 100G pour l'inférence LLM. Jensen Huang : « Quand vous pouvez placer des accélérateurs n'importe où dans un datacenter et composer et reconfigurer pour des charges de travail spécifiques — c'est une révolution. » L'infrastructure composable brise les ratios fixes des serveurs pour correspondre dynamiquement aux exigences exactes des charges de travail IA.

Le pooling de mémoire CXL atteint une accélération de 3,8x par rapport au RDMA 200G et de 6,5x par rapport au RDMA 100G lors du partage de mémoire entre serveurs GPU exécutant l'inférence de grands modèles de langage.[^1] La démonstration a utilisé deux serveurs avec des GPU NVIDIA H100 exécutant le modèle OPT-6.7B, montrant comment la mémoire CXL partagée accélère les charges de travail IA au-delà de ce que permettent les réseaux traditionnels. Comme l'a noté Jensen Huang de NVIDIA : « Quand vous êtes capable de désagréger le serveur convergé, quand vous pouvez placer des accélérateurs n'importe où dans un datacenter et ensuite composer et reconfigurer ce datacenter pour cette charge de travail spécifique — c'est une révolution. »[^2]

L'infrastructure composable représente une approche architecturale où les ressources de calcul, de stockage et de réseau existent comme des pools abstraits gérés indépendamment via des plans de contrôle définis par logiciel.[^3] Contrairement aux architectures traditionnelles couplant CPU, mémoire, stockage et réseau à des serveurs spécifiques, l'infrastructure composable traite les ressources matérielles comme des pools flexibles alloués dynamiquement entre les charges de travail. Cette approche promet des améliorations drastiques de l'utilisation des ressources et de la flexibilité de déploiement pour l'infrastructure IA.

Briser la frontière du serveur

Les serveurs traditionnels regroupent des ratios fixes de CPU, mémoire, GPU et stockage. Les charges de travail IA correspondent rarement à ces ratios fixes. Les tâches d'entraînement exigent une densité GPU maximale avec des besoins CPU relativement modestes. Les charges de travail d'inférence peuvent nécessiter plus de mémoire par GPU que les configurations standard ne le permettent. Les pipelines de prétraitement requièrent de la capacité CPU et stockage sans GPU.

L'infrastructure composable brise la frontière du serveur, permettant aux organisations d'assembler des systèmes virtuels correspondant aux exigences exactes des charges de travail.[^4] Une charge de travail d'entraînement reçoit une composition de 8 GPU, un CPU minimal et un stockage à haute bande passante. Une charge de travail d'inférence reçoit 2 GPU avec une mémoire étendue. Les mêmes ressources physiques servent les deux charges de travail à différents moments sans reconfiguration matérielle.

Le modèle de désagrégation

Les architectures désagrégées séparent les nœuds physiques en types de ressources dédiés : nœuds de calcul, nœuds de mémoire, nœuds GPU et nœuds de stockage.[^5] Des fabrics à haute vitesse connectent les nœuds, permettant au logiciel de composer des systèmes logiques à partir de ressources physiques distribuées. La composition s'effectue par logiciel sans recâblage physique.

Les ressources ne restent plus inactives en attendant des charges de travail spécifiques. Un nœud GPU sert les tâches d'entraînement aux heures de pointe et les tâches d'inférence pendant la nuit. Les nœuds de mémoire étendent la capacité pour les charges de travail intensives en mémoire sans sur-provisionner chaque serveur. Cette flexibilité améliore l'utilisation tout en réduisant les besoins matériels totaux.

CXL permet le pooling de mémoire

Compute Express Link (CXL) fournit l'interconnexion cohérente en cache permettant une désagrégation pratique de la mémoire.[^6] CXL offre un accès à sémantique mémoire avec une latence de l'ordre de 200-500 nanosecondes, comparé à environ 100 microsecondes pour NVMe et plus de 10 millisecondes pour le partage de mémoire basé sur le stockage.[^7] L'amélioration de la latence permet un partage de mémoire véritablement dynamique et à grain fin entre les nœuds de calcul.

Comment fonctionne le pooling de mémoire CXL

Les pools de mémoire CXL créent un nouveau niveau de mémoire désagrégée à haute vitesse qui redéfinit la façon dont les organisations construisent l'infrastructure IA.[^8] Les nœuds CPU accèdent à la mémoire poolée comme si elle était attachée localement, le fabric CXL gérant la cohérence et le mouvement des données de manière transparente. Les applications voient une capacité mémoire étendue sans modification.

La CXL Memory Box permet le pooling de mémoire entre plusieurs serveurs GPU, permettant l'accès à des pools de mémoire plus grands que ce que les serveurs individuels fournissent.[^9] Les charges de travail IA traitant des ensembles de données dépassant la capacité mémoire locale bénéficient de la mémoire poolée sans les pénalités de performance de l'accès mémoire distant traditionnel. Cette approche permet des tailles de batch plus grandes et des fenêtres de contexte plus longues sans mettre à niveau les serveurs individuels.

Au-delà de la mémoire : pooling complet des ressources

CXL permet plus que le pooling de mémoire. Le standard prend en charge les connexions composables entre CPU, tampons mémoire et accélérateurs.[^10] Les GPU, FPGA, DPU et autres accélérateurs se connectent via le fabric CXL pour une allocation dynamique entre les charges de travail.

La vision s'étend à une désagrégation complète des ressources où aucune ressource n'est liée de façon permanente à une autre. Les organisations construisent des pools de ressources dimensionnés pour la demande agrégée plutôt que pour la demande de pointe par charge de travail. L'orchestration logicielle compose les ressources appropriées pour chaque charge de travail en temps réel.

Solutions industrielles

Plusieurs fournisseurs proposent des solutions d'infrastructure composable répondant aux exigences des charges de travail IA.

Plateforme composable Liqid

Liqid a lancé des serveurs GPU composables avec pooling de mémoire CXL 2.0 prenant en charge jusqu'à 100 To de mémoire composable désagrégée.[^11] La plateforme inclut l'EX-5410P, un boîtier GPU à 10 emplacements supportant des GPU de 600W incluant les accélérateurs NVIDIA H200, RTX Pro 6000 et Intel Gaudi 3. Le logiciel Matrix orchestre la composition des ressources à travers la plateforme matérielle.

L'approche Liqid package la composabilité en solutions intégrées plutôt que de demander aux clients d'architecturer des systèmes désagrégés à partir de composants. Les organisations obtiennent les avantages de la composabilité sans développer une expertise en conception de fabric et développement de logiciels d'orchestration.

Systèmes composables IBM Research

IBM Research explore les standards CXL pour construire des systèmes entièrement composables via un fabric à haute vitesse et faible latence.[^12] Dans leur architecture, les ressources existent comme partie de grands pools connectés via un fabric réseau plutôt que groupées statiquement dans des serveurs. Les ressources composables se regroupent pour recréer des abstractions de serveur correspondant aux exigences spécifiques des charges de travail.

Le programme de recherche aborde des défis incluant la conception de topologie de fabric, l'optimisation de la latence et l'orchestration logicielle pour l'infrastructure IA composable. Ces travaux font avancer la compréhension de la façon dont les systèmes composables à l'échelle de la production devraient fonctionner.

Collaboration GigaIO et Microchip

GigaIO et Microchip ont développé une infrastructure désagrégée composable de classe cloud combinant les technologies PCIe et CXL.[^13] Cette approche cible les datacenters nécessitant la flexibilité des ressources composables avec les caractéristiques de performance du matériel directement attaché.

Considérations architecturales

L'implémentation d'une infrastructure composable nécessite des décisions architecturales couvrant la conception du fabric, le logiciel d'orchestration et la gestion des charges de travail.

Topologie du fabric

Le fabric d'interconnexion détermine la latence et la bande passante atteignables entre les ressources désagrégées. Les fabrics CXL doivent fournir une bande passante suffisante pour les patterns d'accès à vitesse mémoire tout en maintenant la latence dans des limites acceptables. La topologie du fabric affecte à la fois la performance et le coût.

Les topologies basées sur des switches offrent de la flexibilité mais ajoutent de la latence par rapport aux connexions directes. Le compromis entre complexité de topologie et budget de latence dépend des exigences spécifiques des charges de travail. Les charges de travail intensives en mémoire exigent une latence plus faible que les charges de travail intensives en stockage.

Exigences d'orchestration

L'orchestration logicielle gère la composition des ressources, traitant les demandes d'allocation, suivant l'état des ressources et maintenant l'isolation entre les compositions. La couche d'orchestration doit répondre assez rapidement pour supporter les changements dynamiques de charges de travail sans devenir un goulot d'étranglement.

L'intégration Kubernetes permet aux ressources composables de servir des charges de travail IA conteneurisées en utilisant des primitives d'orchestration familières. Le GPU Operator et extensions similaires gèrent les ressources d'accélérateurs, avec des extensions de composabilité permettant l'allocation dynamique de pools GPU.

Considérations sur les domaines de défaillance

La désagrégation modifie les caractéristiques des domaines de défaillance. Un nœud mémoire en panne affecte toutes les compositions utilisant cette mémoire plutôt qu'un seul serveur. Le rayon d'impact des pannes de composants s'étend par rapport aux architectures de serveurs convergés.

Les stratégies de redondance doivent tenir compte des modes de défaillance désagrégés. Les pools de mémoire nécessitent une redondance à travers les nœuds physiques. Les politiques de composition doivent éviter de concentrer les charges de travail critiques sur des ressources partagées. La surveillance doit suivre la santé à travers le fabric plutôt que sur les serveurs individuels.

Expertise en déploiement d'infrastructure

La complexité de l'infrastructure composable dépasse le déploiement de serveurs traditionnels. L'installation du fabric, la validation des performances et la configuration de l'orchestration nécessitent une expertise spécialisée que la plupart des organisations ne possèdent pas en interne.

Les 550 ingénieurs de terrain d'Introl accompagnent les organisations implémentant des architectures d'infrastructure avancées incluant les systèmes composables et désagrégés.[^14] L'entreprise s'est classée #14 au classement Inc. 5000 2025 avec une croissance de 9 594% sur trois ans, reflétant la demande de services d'infrastructure professionnels.[^15] Les déploiements composables bénéficient de l'expérience en installation et validation de fabrics à haute vitesse.

Déployer l'infrastructure à travers 257 emplacements mondiaux nécessite des pratiques cohérentes quelle que soit la géographie.[^16] Introl gère des déploiements atteignant 100 000 GPU avec plus de 40 000 miles d'infrastructure réseau en fibre optique, fournissant une échelle opérationnelle pour les organisations construisant une infrastructure IA composable.[^17]

L'avenir composable

Les architectures désagrégées à partage de ressources permettront l'infrastructure pour traiter les pétaoctets de données nécessaires à l'IA, au machine learning et autres technologies intensives en données.[^18] L'adoption de CXL s'accélérera à mesure que le standard mûrira et que les solutions des fournisseurs proliféreront.

Les organisations planifiant des investissements en infrastructure IA devraient évaluer les architectures composables pour les déploiements où la variabilité des charges de travail rend les serveurs à ratio fixe inefficaces. Les avantages de flexibilité se composent avec l'échelle : les déploiements plus importants obtiennent de meilleures améliorations d'utilisation grâce au pooling des ressources.

La transition de l'infrastructure convergée vers l'infrastructure composable représente un changement fondamental dans l'architecture des datacenters. Les organisations qui maîtrisent le déploiement composable gagnent des avantages de flexibilité qui se traduisent en efficacité des coûts et agilité de déploiement. La révolution décrite par Jensen Huang commence par la compréhension de comment la désagrégation change l'économie de l'infrastructure.

Points clés à retenir

Pour les architectes d'infrastructure : - Le pooling de mémoire CXL atteint une accélération de 3,8x vs RDMA 200G et 6,5x vs RDMA 100G pour les charges de travail d'inférence LLM - Latence CXL : accès à sémantique mémoire de 200-500ns vs ~100μs NVMe vs >10ms partage basé sur le stockage - La désagrégation permet : composition de 8 GPU pour l'entraînement, 2 GPU + mémoire étendue pour l'inférence, depuis le même pool matériel

Pour les équipes d'approvisionnement : - Liqid EX-5410P : boîtier GPU à 10 emplacements supportant des GPU de 600W (H200, RTX Pro 6000, Gaudi 3) avec pooling de mémoire CXL de 100To - Les serveurs traditionnels à ratio fixe gaspillent des ressources : l'entraînement nécessite un maximum de GPU avec un CPU modeste ; l'inférence nécessite plus de mémoire par GPU - Le composable réduit le matériel total en poolant les ressources entre les charges de travail ; les nœuds GPU servent l'entraînement le jour, l'inférence la nuit

Pour les ingénieurs plateforme : - IBM Research explore CXL pour des systèmes entièrement composables via un fabric à haute vitesse et faible latence - Collaboration GigaIO/Microchip : composable de classe cloud combinant les technologies PCIe et CXL - L'intégration Kubernetes via les extensions GPU Operator permet des ressources composables avec une orchestration familière

Pour les équipes d'exploitation : - Changement de domaine de défaillance : un nœud mémoire en panne affecte toutes les compositions l'utilisant vs un seul serveur en architecture convergée - Les stratégies de redondance doivent tenir compte des modes de défaillance désagrégés ; éviter de concentrer les charges de travail sur des ressources partagées - La surveillance de la santé du fabric remplace la surveillance des serveurs individuels ; les politiques de composition prévi

[Contenu tronqué pour la traduction]

Demander un devis_

Parlez-nous de votre projet et nous vous répondrons sous 72 heures.

> TRANSMISSION_TERMINÉE

Demande reçue_

Merci pour votre demande. Notre équipe examinera votre requête et vous répondra sous 72 heures.

EN ATTENTE DE TRAITEMENT