AI를 위한 분산 컴퓨팅: 구성 가능한 인프라 아키텍처

Blake Crosley

Jan 06, 2026 7 min read Disclaimer

AI를 위한 분산 컴퓨팅: 구성 가능한 인프라 아키텍처

2025년 12월 11일 업데이트

2025년 12월 업데이트: CXL 메모리 풀링이 LLM 추론에서 200G RDMA 대비 3.8배, 100G RDMA 대비 6.5배의 속도 향상을 달성했습니다. Jensen Huang은 "가속기를 데이터센터 어디에나 배치하고 특정 워크로드에 맞게 구성 및 재구성할 수 있게 되면—그것이 바로 혁명입니다"라고 말했습니다. 구성 가능한 인프라가 고정된 서버 비율을 깨고 정확한 AI 워크로드 요구사항에 동적으로 대응합니다.

CXL 메모리 풀링은 대규모 언어 모델 추론을 실행하는 GPU 서버 간 메모리 공유 시 200G RDMA 대비 3.8배, 100G RDMA 대비 6.5배의 속도 향상을 달성합니다.[^1] 이 시연은 OPT-6.7B 모델을 실행하는 NVIDIA H100 GPU가 장착된 두 대의 서버를 사용하여, 공유 CXL 메모리가 기존 네트워킹이 가능하게 하는 것 이상으로 AI 워크로드를 어떻게 가속화하는지 보여주었습니다. NVIDIA의 Jensen Huang이 언급했듯이: "통합 서버를 분산시키고, 가속기를 데이터센터 어디에나 배치할 수 있으며, 특정 워크로드에 맞게 데이터센터를 구성하고 재구성할 수 있게 되면—그것이 바로 혁명입니다."[^2]

구성 가능한 인프라는 컴퓨팅, 스토리지, 네트워킹 리소스가 소프트웨어 정의 제어 평면을 통해 독립적으로 관리되는 추상화된 풀로 존재하는 아키텍처 접근 방식을 나타냅니다.[^3] CPU, 메모리, 스토리지, 네트워킹을 특정 서버에 결합하는 기존 아키텍처와 달리, 구성 가능한 인프라는 하드웨어 리소스를 워크로드 전반에 걸쳐 동적으로 할당되는 유연한 풀로 취급합니다. 이 접근 방식은 AI 인프라의 리소스 활용도와 배포 유연성에서 극적인 개선을 약속합니다.

서버 경계 허물기

기존 서버는 CPU, 메모리, GPU, 스토리지의 고정 비율을 패키징합니다. AI 워크로드는 이러한 고정 비율과 거의 일치하지 않습니다. 훈련 작업은 상대적으로 적당한 CPU 요구사항과 함께 최대 GPU 밀도를 요구합니다. 추론 워크로드는 표준 구성이 제공하는 것보다 GPU당 더 많은 메모리가 필요할 수 있습니다. 전처리 파이프라인은 GPU 없이 CPU와 스토리지 용량을 필요로 합니다.

구성 가능한 인프라는 서버 경계를 허물어 조직이 정확한 워크로드 요구사항에 맞는 가상 시스템을 조립할 수 있게 합니다.[^4] 훈련 워크로드는 8개의 GPU, 최소한의 CPU, 고대역폭 스토리지 구성을 받습니다. 추론 워크로드는 확장된 메모리와 함께 2개의 GPU를 받습니다. 동일한 물리적 리소스가 하드웨어 재구성 없이 서로 다른 시간에 두 워크로드를 모두 처리합니다.

분산 모델

분산 아키텍처는 물리적 노드를 전용 리소스 유형인 컴퓨팅 노드, 메모리 노드, GPU 노드, 스토리지 노드로 분리합니다.[^5] 고속 패브릭이 노드들을 연결하여 소프트웨어가 분산된 물리적 리소스에서 논리적 시스템을 구성할 수 있게 합니다. 구성은 물리적 재배선 없이 소프트웨어에서 이루어집니다.

리소스가 더 이상 특정 워크로드를 기다리며 유휴 상태로 있지 않습니다. GPU 노드는 피크 시간에는 훈련 작업을, 야간에는 추론 작업을 처리합니다. 메모리 노드는 모든 서버에 과잉 프로비저닝하지 않고도 메모리 집약적 워크로드의 용량을 확장합니다. 이러한 유연성은 총 하드웨어 요구사항을 줄이면서 활용도를 개선합니다.

CXL이 메모리 풀링을 가능하게 하다

Compute Express Link(CXL)는 실용적인 메모리 분산을 가능하게 하는 캐시 일관성 인터커넥트를 제공합니다.[^6] CXL은 NVMe의 약 100마이크로초, 스토리지 기반 메모리 공유의 10밀리초 이상과 비교하여 200-500나노초 범위의 지연 시간으로 메모리 시맨틱 액세스를 제공합니다.[^7] 지연 시간 개선으로 컴퓨팅 노드 전반에 걸쳐 진정으로 동적이고 세분화된 메모리 공유가 가능해집니다.

CXL 메모리 풀링 작동 방식

CXL 메모리 풀은 조직이 AI 인프라를 구축하는 방식을 재편하는 새로운 계층의 고속 분산 메모리를 생성합니다.[^8] CPU 노드는 로컬에 연결된 것처럼 풀링된 메모리에 액세스하며, CXL 패브릭이 일관성과 데이터 이동을 투명하게 처리합니다. 애플리케이션은 수정 없이 확장된 메모리 용량을 봅니다.

CXL Memory Box는 여러 GPU 서버에 걸친 메모리 풀링을 가능하게 하여 개별 서버가 제공하는 것보다 더 큰 메모리 풀에 대한 액세스를 허용합니다.[^9] 로컬 메모리 용량을 초과하는 데이터셋을 처리하는 AI 워크로드는 기존 원격 메모리 액세스의 성능 패널티 없이 풀링된 메모리의 이점을 누립니다. 이 접근 방식은 개별 서버를 업그레이드하지 않고도 더 큰 배치 크기와 더 긴 컨텍스트 창을 가능하게 합니다.

메모리 그 이상: 전체 리소스 풀링

CXL은 메모리 풀링 이상을 가능하게 합니다. 이 표준은 CPU, 메모리 버퍼, 가속기 간의 구성 가능한 연결을 지원합니다.[^10] GPU, FPGA, DPU 및 기타 가속기가 CXL 패브릭을 통해 연결되어 워크로드 전반에 걸쳐 동적으로 할당됩니다.

비전은 어떤 리소스도 다른 리소스에 영구적으로 바인딩되지 않는 완전한 리소스 분산으로 확장됩니다. 조직은 워크로드당 피크 수요가 아닌 총 수요에 맞게 크기가 조정된 리소스 풀을 구축합니다. 소프트웨어 오케스트레이션이 각 워크로드에 적합한 리소스를 실시간으로 구성합니다.

업계 솔루션

여러 벤더가 AI 워크로드 요구사항을 해결하는 구성 가능한 인프라 솔루션을 제공합니다.

Liqid 구성 가능 플랫폼

Liqid는 최대 100TB의 분산 구성 가능 메모리를 지원하는 CXL 2.0 메모리 풀링을 갖춘 구성 가능 GPU 서버를 출시했습니다.[^11] 이 플랫폼에는 NVIDIA H200, RTX Pro 6000, Intel Gaudi 3 가속기를 포함한 600W GPU를 지원하는 EX-5410P 10슬롯 GPU 박스가 포함됩니다. Matrix 소프트웨어가 하드웨어 플랫폼 전반에 걸쳐 리소스 구성을 조율합니다.

Liqid 접근 방식은 고객이 구성 요소에서 분산 시스템을 설계해야 하는 대신 구성 가능성을 통합 솔루션으로 패키징합니다. 조직은 패브릭 설계 및 오케스트레이션 소프트웨어 개발에 대한 전문 지식을 구축하지 않고도 구성 가능성의 이점을 얻습니다.

IBM Research 구성 가능 시스템

IBM Research는 고속, 저지연 패브릭을 통해 완전히 구성 가능한 시스템을 구축하기 위한 CXL 표준을 탐구합니다.[^12] 그들의 아키텍처에서 리소스는 서버에 정적으로 그룹화되지 않고 네트워크 패브릭을 통해 연결된 대규모 풀의 일부로 존재합니다. 구성 가능한 리소스가 함께 그룹화되어 특정 워크로드 요구사항에 맞는 서버 추상화를 재생성합니다.

연구 프로그램은 패브릭 토폴로지 설계, 지연 시간 최적화, 구성 가능한 AI 인프라를 위한 소프트웨어 오케스트레이션을 포함한 과제를 다룹니다. 이 작업은 프로덕션 규모의 구성 가능 시스템이 어떻게 작동해야 하는지에 대한 이해를 발전시킵니다.

GigaIO와 Microchip 협업

GigaIO와 Microchip은 PCIe와 CXL 기술을 결합한 클라우드급 구성 가능 분산 인프라를 개발했습니다.[^13] 이 접근 방식은 직접 연결 하드웨어의 성능 특성과 함께 구성 가능한 리소스의 유연성이 필요한 데이터 센터를 대상으로 합니다.

아키텍처 고려사항

구성 가능한 인프라를 구현하려면 패브릭 설계, 오케스트레이션 소프트웨어, 워크로드 관리에 걸친 아키텍처 결정이 필요합니다.

패브릭 토폴로지

인터커넥트 패브릭은 분산된 리소스 간에 달성 가능한 지연 시간과 대역폭을 결정합니다. CXL 패브릭은 지연 시간을 허용 가능한 범위 내로 유지하면서 메모리 속도 액세스 패턴에 충분한 대역폭을 제공해야 합니다. 패브릭 토폴로지는 성능과 비용 모두에 영향을 미칩니다.

스위치 기반 토폴로지는 유연성을 제공하지만 직접 연결에 비해 지연 시간이 추가됩니다. 토폴로지 복잡성과 지연 시간 예산 간의 트레이드오프는 특정 워크로드 요구사항에 따라 달라집니다. 메모리 집약적 워크로드는 스토리지 집약적 워크로드보다 더 낮은 지연 시간을 요구합니다.

오케스트레이션 요구사항

소프트웨어 오케스트레이션은 리소스 구성을 관리하고, 할당 요청을 처리하며, 리소스 상태를 추적하고, 구성 간 격리를 유지합니다. 오케스트레이션 계층은 병목 현상이 되지 않으면서 동적 워크로드 변경을 지원할 수 있을 만큼 빠르게 응답해야 합니다.

Kubernetes 통합은 구성 가능한 리소스가 익숙한 오케스트레이션 프리미티브를 사용하여 컨테이너화된 AI 워크로드를 제공할 수 있게 합니다. GPU Operator와 유사한 확장이 가속기 리소스를 관리하며, 구성 가능성 확장이 동적 GPU 풀 할당을 가능하게 합니다.

장애 도메인 고려사항

분산은 장애 도메인 특성을 변경합니다. 장애가 발생한 메모리 노드는 단일 서버가 아닌 해당 메모리를 사용하는 모든 구성에 영향을 미칩니다. 구성 요소 장애의 폭발 반경이 통합 서버 아키텍처에 비해 확장됩니다.

중복성 전략은 분산된 장애 모드를 고려해야 합니다. 메모리 풀은 물리적 노드 전반에 걸쳐 중복성이 필요합니다. 구성 정책은 공유 리소스에 중요한 워크로드를 집중시키는 것을 피해야 합니다. 모니터링은 개별 서버가 아닌 패브릭 전반의 상태를 추적해야 합니다.

인프라 배포 전문성

구성 가능한 인프라의 복잡성은 기존 서버 배포를 초과합니다. 패브릭 설치, 성능 검증, 오케스트레이션 구성에는 대부분의 조직이 내부적으로 갖추지 못한 전문 지식이 필요합니다.

Introl의 550명의 현장 엔지니어가 구성 가능하고 분산된 시스템을 포함한 고급 인프라 아키텍처를 구현하는 조직을 지원합니다.[^14] 이 회사는 3년간 9,594% 성장으로 2025년 Inc. 5000에서 14위를 기록했으며, 이는 전문 인프라 서비스에 대한 수요를 반영합니다.[^15] 구성 가능한 배포는 고속 패브릭 설치 및 검증 경험의 이점을 누립니다.

257개 글로벌 위치에 걸쳐 인프라를 배포하려면 지역에 관계없이 일관된 관행이 필요합니다.[^16] Introl은 40,000마일 이상의 광섬유 네트워크 인프라로 100,000개의 GPU에 도달하는 배포를 관리하며, 구성 가능한 AI 인프라를 구축하는 조직에 운영 규모를 제공합니다.[^17]

구성 가능한 미래

분산된 리소스 공유 아키텍처는 AI, 머신 러닝 및 기타 데이터 집약적 기술에 필요한 페타바이트 규모의 데이터를 처리하기 위한 인프라를 가능하게 할 것입니다.[^18] 표준이 성숙하고 벤더 솔루션이 확산됨에 따라 CXL 채택이 가속화될 것입니다.

AI 인프라 투자를 계획하는 조직은 워크로드 가변성으로 인해 고정 비율 서버가 비효율적인 배포에 대해 구성 가능한 아키텍처를 평가해야 합니다. 유연성 이점은 규모에 따라 복리로 증가합니다: 더 큰 배포는 리소스 풀링에서 더 나은 활용도 개선을 달성합니다.

통합에서 구성 가능한 인프라로의 전환은 데이터 센터 아키텍처의 근본적인 변화를 나타냅니다. 구성 가능한 배포를 마스터하는 조직은 비용 효율성과 배포 민첩성으로 전환되는 유연성 이점을 얻습니다. Jensen Huang이 설명한 혁명은 분산이 인프라 경제를 어떻게 변화시키는지 이해하는 것에서 시작됩니다.

핵심 요약

인프라 아키텍트를 위해: - CXL 메모리 풀링은 LLM 추론 워크로드에서 200G RDMA 대비 3.8배, 100G RDMA 대비 6.5배 속도 향상 달성 - CXL 지연 시간: 200-500ns 메모리 시맨틱 액세스 vs ~100μs NVMe vs >10ms 스토리지 기반 공유 - 분산이 가능하게 하는 것: 동일한 하드웨어 풀에서 훈련용 8 GPU 구성, 추론용 2 GPU + 확장 메모리

조달 팀을 위해: - Liqid EX-5410P: 100TB CXL 메모리 풀링과 함께 600W GPU(H200, RTX Pro 6000, Gaudi 3)를 지원하는 10슬롯 GPU 박스 - 기존 고정 비율 서버는 리소스 낭비: 훈련은 적당한 CPU로 최대 GPU 필요; 추론은 GPU당 더 많은 메모리 필요 - 구성 가능 아키텍처는 워크로드 전반에 걸쳐 리소스를 풀링하여 총 하드웨어를 줄임; GPU 노드가 낮에는 훈련, 밤에는 추론 처리

플랫폼 엔지니어를 위해: - IBM Research가 고속, 저지연 패브릭을 통한 완전 구성 가능 시스템을 위한 CXL 탐구 - GigaIO/Microchip 협업: PCIe와 CXL 기술을 결합한 클라우드급 구성 가능 인프라 - GPU Operator 확장을 통한 Kubernetes 통합으로 익숙한 오케스트레이션과 함께 구성 가능한 리소스 활용

운영 팀을 위해: - 장애 도메인 변경: 장애가 발생한 메모리 노드는 통합 아키텍처의 단일 서버 vs 이를 사용하는 모든 구성에 영향 - 중복성 전략은 분산된 장애 모드를 고려해야 함; 공유 리소스에 워크로드 집중 회피 - 패브릭 상태 모니터링이 개별 서버 모니터링을 대체; 구성 정책이 예방

[번역을 위해 내용이 잘림]

AI를 위한 분산 컴퓨팅: 구성 가능한 인프라 아키텍처

서버 경계 허물기

분산 모델

CXL이 메모리 풀링을 가능하게 하다

CXL 메모리 풀링 작동 방식

메모리 그 이상: 전체 리소스 풀링

업계 솔루션

Liqid 구성 가능 플랫폼

IBM Research 구성 가능 시스템

GigaIO와 Microchip 협업

아키텍처 고려사항

패브릭 토폴로지

오케스트레이션 요구사항

장애 도메인 고려사항

인프라 배포 전문성

구성 가능한 미래

핵심 요약

You Might Also Like

데이터센터를 위한 AIOps: LLM을 활용한 AI 인프라 관리

AI 추론을 위한 로드 밸런싱: 1000개 이상의 GPU에 요청 분산하기

피처 스토어와 MLOps 데이터베이스: 프로덕션 ML을 위한 인프라

견적 요청_

요청이 접수되었습니다_