Computação Desagregada para IA: Arquitetura de Infraestrutura Composável

Computação Desagregada para IA: Arquitetura de Infraestrutura Composável

Computação Desagregada para IA: Arquitetura de Infraestrutura Composável

Atualizado em 11 de dezembro de 2025

Atualização de Dezembro de 2025: O pooling de memória CXL alcança aceleração de 3,8x em comparação com RDMA 200G e 6,5x em comparação com RDMA 100G para inferência de LLM. Jensen Huang: "Quando você consegue colocar aceleradores em qualquer lugar de um datacenter e compor e reconfigurar para cargas de trabalho específicas—isso é uma revolução." A infraestrutura composável está quebrando proporções fixas de servidor para corresponder dinamicamente aos requisitos exatos de cargas de trabalho de IA.

O pooling de memória CXL alcança uma aceleração de 3,8x em comparação com RDMA 200G e 6,5x em comparação com RDMA 100G ao compartilhar memória entre servidores GPU executando inferência de modelos de linguagem de grande escala.[^1] A demonstração utilizou dois servidores com GPUs NVIDIA H100 executando o modelo OPT-6.7B, mostrando como a memória CXL compartilhada acelera cargas de trabalho de IA além do que a rede tradicional permite. Como observou Jensen Huang da NVIDIA: "Quando você consegue desagregar o servidor convergido, quando pode colocar aceleradores em qualquer lugar de um datacenter e então compor e reconfigurar esse datacenter para essa carga de trabalho específica—isso é uma revolução."[^2]

A infraestrutura composável representa uma abordagem arquitetônica onde recursos de computação, armazenamento e rede existem como pools abstraídos gerenciados independentemente através de planos de controle definidos por software.[^3] Diferentemente das arquiteturas tradicionais que acoplam CPU, memória, armazenamento e rede a servidores específicos, a infraestrutura composável trata recursos de hardware como pools flexíveis alocados dinamicamente entre cargas de trabalho. A abordagem promete melhorias dramáticas na utilização de recursos e flexibilidade de implantação para infraestrutura de IA.

Quebrando a barreira do servidor

Servidores tradicionais empacotam proporções fixas de CPU, memória, GPU e armazenamento. Cargas de trabalho de IA raramente correspondem a essas proporções fixas. Trabalhos de treinamento demandam máxima densidade de GPU com requisitos de CPU relativamente modestos. Cargas de trabalho de inferência podem precisar de mais memória por GPU do que as configurações padrão fornecem. Pipelines de pré-processamento requerem capacidade de CPU e armazenamento sem GPUs.

A infraestrutura composável quebra a barreira do servidor, permitindo que organizações montem sistemas virtuais que correspondam aos requisitos exatos da carga de trabalho.[^4] Uma carga de trabalho de treinamento recebe uma composição de 8 GPUs, CPU mínima e armazenamento de alta largura de banda. Uma carga de trabalho de inferência recebe 2 GPUs com memória expandida. Os mesmos recursos físicos servem ambas as cargas de trabalho em momentos diferentes sem reconfiguração de hardware.

O modelo de desagregação

Arquiteturas desagregadas separam nós físicos em tipos de recursos dedicados: nós de computação, nós de memória, nós de GPU e nós de armazenamento.[^5] Fabrics de alta velocidade conectam os nós, permitindo que o software componha sistemas lógicos a partir de recursos físicos distribuídos. A composição acontece em software sem recabeamento físico.

Os recursos não ficam mais ociosos esperando por cargas de trabalho específicas. Um nó de GPU serve trabalhos de treinamento durante horários de pico e trabalhos de inferência durante a noite. Nós de memória expandem a capacidade para cargas de trabalho intensivas em memória sem superdimensionar cada servidor. A flexibilidade melhora a utilização enquanto reduz os requisitos totais de hardware.

CXL habilita pooling de memória

O Compute Express Link (CXL) fornece a interconexão cache-coherent que habilita a desagregação prática de memória.[^6] O CXL oferece acesso com semântica de memória com latência na faixa de 200-500 nanossegundos, comparado a aproximadamente 100 microssegundos para NVMe e mais de 10 milissegundos para compartilhamento de memória baseado em armazenamento.[^7] A melhoria de latência permite compartilhamento de memória verdadeiramente dinâmico e de granularidade fina entre nós de computação.

Como funciona o pooling de memória CXL

Os pools de memória CXL criam um novo nível de memória desagregada de alta velocidade, remodelando como as organizações constroem infraestrutura de IA.[^8] Os nós de CPU acessam a memória em pool como se estivesse localmente conectada, com o fabric CXL lidando com coerência e movimentação de dados de forma transparente. As aplicações veem capacidade de memória expandida sem modificação.

O CXL Memory Box habilita pooling de memória entre múltiplos servidores GPU, permitindo acesso a pools de memória maiores do que servidores individuais fornecem.[^9] Cargas de trabalho de IA processando conjuntos de dados que excedem a capacidade de memória local se beneficiam da memória em pool sem penalidades de desempenho do acesso tradicional a memória remota. A abordagem permite tamanhos de lote maiores e janelas de contexto mais longas sem atualizar servidores individuais.

Além da memória: pooling completo de recursos

O CXL habilita mais do que pooling de memória. O padrão suporta conexões composáveis entre CPUs, buffers de memória e aceleradores.[^10] GPUs, FPGAs, DPUs e outros aceleradores se conectam através do fabric CXL para alocação dinâmica entre cargas de trabalho.

A visão se estende à desagregação completa de recursos onde nenhum recurso se vincula permanentemente a outro. As organizações constroem pools de recursos dimensionados para a demanda agregada em vez da demanda de pico por carga de trabalho. A orquestração de software compõe os recursos apropriados para cada carga de trabalho em tempo real.

Soluções da indústria

Vários fornecedores oferecem soluções de infraestrutura composável que atendem aos requisitos de cargas de trabalho de IA.

Plataforma composável Liqid

A Liqid lançou servidores GPU composáveis com pooling de memória CXL 2.0 suportando até 100 TB de memória composável desagregada.[^11] A plataforma inclui o EX-5410P, uma caixa de GPU de 10 slots suportando GPUs de 600W incluindo aceleradores NVIDIA H200, RTX Pro 6000 e Intel Gaudi 3. O software Matrix orquestra a composição de recursos através da plataforma de hardware.

A abordagem da Liqid empacota a composabilidade em soluções integradas em vez de exigir que os clientes arquitetem sistemas desagregados a partir de componentes. As organizações ganham benefícios de composabilidade sem construir expertise em design de fabric e desenvolvimento de software de orquestração.

Sistemas composáveis IBM Research

A IBM Research explora padrões CXL para construir sistemas totalmente composáveis via fabric de alta velocidade e baixa latência.[^12] Em sua arquitetura, os recursos existem como parte de grandes pools conectados através de fabric de rede em vez de agrupados estaticamente em servidores. Recursos composáveis se agrupam para recriar abstrações de servidor que correspondem aos requisitos específicos de carga de trabalho.

O programa de pesquisa aborda desafios incluindo design de topologia de fabric, otimização de latência e orquestração de software para infraestrutura de IA composável. O trabalho avança a compreensão de como sistemas composáveis em escala de produção devem operar.

Colaboração GigaIO e Microchip

A GigaIO e a Microchip desenvolveram infraestrutura desagregada composável de classe cloud combinando tecnologias PCIe e CXL.[^13] A abordagem tem como alvo data centers que requerem a flexibilidade de recursos composáveis com as características de desempenho de hardware conectado diretamente.

Considerações arquitetônicas

Implementar infraestrutura composável requer decisões arquitetônicas abrangendo design de fabric, software de orquestração e gerenciamento de carga de trabalho.

Topologia de fabric

O fabric de interconexão determina a latência e largura de banda alcançáveis entre recursos desagregados. Os fabrics CXL devem fornecer largura de banda suficiente para padrões de acesso em velocidade de memória enquanto mantêm a latência dentro de limites aceitáveis. A topologia do fabric afeta tanto o desempenho quanto o custo.

Topologias baseadas em switch oferecem flexibilidade, mas adicionam latência em comparação com conexões diretas. A compensação entre complexidade de topologia e orçamento de latência depende dos requisitos específicos da carga de trabalho. Cargas de trabalho intensivas em memória demandam menor latência do que cargas de trabalho intensivas em armazenamento.

Requisitos de orquestração

A orquestração de software gerencia a composição de recursos, lidando com solicitações de alocação, rastreando o estado dos recursos e mantendo o isolamento entre composições. A camada de orquestração deve responder rápido o suficiente para suportar mudanças dinâmicas de carga de trabalho sem se tornar um gargalo.

A integração com Kubernetes permite que recursos composáveis sirvam cargas de trabalho de IA containerizadas usando primitivas de orquestração familiares. O GPU Operator e extensões similares gerenciam recursos de aceleradores, com extensões de composabilidade habilitando alocação dinâmica de pool de GPU.

Considerações sobre domínio de falha

A desagregação muda as características do domínio de falha. Um nó de memória com falha afeta todas as composições usando essa memória em vez de um único servidor. O raio de explosão de falhas de componentes se expande em comparação com arquiteturas de servidor convergidas.

Estratégias de redundância devem considerar modos de falha desagregados. Pools de memória requerem redundância entre nós físicos. Políticas de composição devem evitar concentrar cargas de trabalho críticas em recursos compartilhados. O monitoramento deve rastrear a saúde através do fabric em vez de servidores individuais.

Expertise em implantação de infraestrutura

A complexidade da infraestrutura composável excede a implantação tradicional de servidores. Instalação de fabric, validação de desempenho e configuração de orquestração requerem expertise especializada que a maioria das organizações não possui internamente.

Os 550 engenheiros de campo da Introl apoiam organizações implementando arquiteturas de infraestrutura avançadas, incluindo sistemas composáveis e desagregados.[^14] A empresa ficou em 14º lugar no Inc. 5000 de 2025 com crescimento de 9.594% em três anos, refletindo a demanda por serviços profissionais de infraestrutura.[^15] Implantações composáveis se beneficiam da experiência com instalação e validação de fabric de alta velocidade.

Implantar infraestrutura em 257 localizações globais requer práticas consistentes independentemente da geografia.[^16] A Introl gerencia implantações alcançando 100.000 GPUs com mais de 40.000 milhas de infraestrutura de rede de fibra óptica, fornecendo escala operacional para organizações construindo infraestrutura de IA composável.[^17]

O futuro composável

Arquiteturas desagregadas e de compartilhamento de recursos habilitarão infraestrutura para processar os petabytes de dados necessários para IA, machine learning e outras tecnologias intensivas em dados.[^18] A adoção do CXL se acelerará à medida que o padrão amadurecer e as soluções de fornecedores proliferarem.

Organizações planejando investimentos em infraestrutura de IA devem avaliar arquiteturas composáveis para implantações onde a variabilidade de carga de trabalho torna servidores de proporção fixa ineficientes. Os benefícios de flexibilidade se compõem com a escala: implantações maiores alcançam melhores melhorias de utilização com pooling de recursos.

A transição de infraestrutura convergida para composável representa uma mudança fundamental na arquitetura de data center. Organizações que dominam a implantação composável ganham vantagens de flexibilidade que se traduzem em eficiência de custo e agilidade de implantação. A revolução que Jensen Huang descreveu começa com a compreensão de como a desagregação muda a economia da infraestrutura.

Principais conclusões

Para arquitetos de infraestrutura: - O pooling de memória CXL alcança aceleração de 3,8x vs RDMA 200G e 6,5x vs RDMA 100G para cargas de trabalho de inferência de LLM - Latência CXL: acesso com semântica de memória de 200-500ns vs ~100μs NVMe vs >10ms compartilhamento baseado em armazenamento - A desagregação habilita: composição de 8 GPU para treinamento, 2 GPU + memória expandida para inferência, do mesmo pool de hardware

Para equipes de procurement: - Liqid EX-5410P: caixa de GPU de 10 slots suportando GPUs de 600W (H200, RTX Pro 6000, Gaudi 3) com pooling de memória CXL de 100TB - Servidores tradicionais de proporção fixa desperdiçam recursos: treinamento precisa de máximo GPU com CPU modesta; inferência precisa de mais memória por GPU - O composável reduz hardware total ao fazer pooling de recursos entre cargas de trabalho; nós de GPU servem treinamento de dia, inferência à noite

Para engenheiros de plataforma: - IBM Research explorando CXL para sistemas totalmente composáveis via fabric de alta velocidade e baixa latência - Colaboração GigaIO/Microchip: composável de classe cloud combinando tecnologias PCIe e CXL - Integração Kubernetes através de extensões GPU Operator habilita recursos composáveis com orquestração familiar

Para equipes de operações: - Mudança no domínio de falha: nó de memória com falha afeta todas as composições que o usam vs servidor único em arquitetura convergida - Estratégias de redundância devem considerar modos de falha desagregados; evitar concentrar cargas de trabalho em recursos compartilhados - Monitoramento de saúde do fabric substitui monitoramento de servidor individual; políticas de composição preven

[Conteúdo truncado para tradução]

Solicitar Orçamento_

Conte-nos sobre seu projeto e responderemos em até 72 horas.

> TRANSMISSÃO_CONCLUÍDA

Solicitação Recebida_

Obrigado por sua consulta. Nossa equipe analisará sua solicitação e responderá em até 72 horas.

EM FILA PARA PROCESSAMENTO