UALink와 CXL 4.0: GPU 클러스터 아키텍처를 재편하는 개방형 표준
2025년 4월에 발표된 UALink 1.0 사양은 단일 패브릭에서 1,024개의 가속기로 확장할 수 있게 하여, Nvidia의 독점적인 NVLink 및 NVSwitch 생태계에 직접적으로 도전합니다. 7개월 후인 2025년 11월 18일, CXL 컨소시엄은 CXL 4.0을 발표하여 대역폭을 128 GT/s로 두 배 늘리고 멀티랙 메모리 풀링을 가능하게 했습니다. 이 두 개방형 표준은 2016년 Nvidia가 NVLink를 도입한 이후 인터커넥트 지배력에 대한 가장 중요한 도전을 의미합니다.
요약
UALink 1.0은 NVLink의 최대 576개 GPU와 비교하여 최대 1,024개의 가속기를 지원하면서 레인당 200 GT/s를 제공합니다. CXL 4.0은 메모리 대역폭을 128 GT/s로 두 배 늘리고 테라바이트 규모의 공유 메모리가 필요한 AI 워크로드를 위한 번들 포트를 도입합니다. UALink를 지원하는 하드웨어는 AMD, Intel, Astera Labs에서 2026년 말에 출시될 예정이며, CXL 4.0 멀티랙 배포는 2027년을 목표로 합니다. 차세대 GPU 클러스터를 계획하는 인프라 팀에게 이 사양들은 벤더 종속을 줄이면서 전례 없는 규모를 가능하게 하는 벤더 중립 아키텍처로의 전환을 시사합니다.
2025년 인터커넥트 환경
GPU 인터커넥트는 AI 클러스터가 얼마나 효과적으로 확장되는지를 결정합니다. 가속기들이 데이터를 더 빠르게 교환할수록, 훈련할 수 있는 모델은 더 커지고 추론 요청을 더 효율적으로 처리할 수 있습니다.
현재 인터커넥트 기술
| 기술 | 소유사 | 대역폭 | 최대 규모 | 상태 |
|---|---|---|---|---|
| NVLink 5.0 | Nvidia | GPU당 1.8 TB/s | 576 GPU | 양산 중 (Blackwell) |
| NVLink 4.0 | Nvidia | GPU당 900 GB/s | 256 GPU | 양산 중 (Hopper) |
| Infinity Fabric | AMD | 카드당 ~1.075 TB/s | 8 GPU (직접 메시) | 양산 중 (MI300X) |
| UALink 1.0 | 컨소시엄 | 800 GB/s (4레인) | 1,024 가속기 | 2025년 4월 사양 발표 |
| CXL 4.0 | 컨소시엄 | 128 GT/s | 멀티랙 | 2025년 11월 사양 발표 |
Nvidia의 NVLink가 양산 배포에서 지배적이지만, GB200 NVL72 시스템은 그 강점과 제약을 모두 보여줍니다: 130 TB/s의 총 대역폭으로 상호 연결된 72개의 Blackwell GPU, 하지만 오직 Nvidia의 독점 생태계 내에서만 가능합니다.
UALink 1.0: 벤더 종속 타파
컨소시엄 결성
Ultra Accelerator Link 컨소시엄은 2024년 10월에 AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta, Microsoft를 창립 멤버로 설립되었습니다. 이 노력은 AMD와 Broadcom이 2023년 12월에 발표한 작업을 기반으로 합니다.
2025년 1월까지 Alibaba Cloud, Apple, Synopsys가 이사회 수준에서 합류하여 총 회원 수가 75개 조직에 달했습니다.
기술 사양
UALink 200G 1.0 사양은 AI 컴퓨팅 포드 내 가속기와 스위치 간 통신을 위한 저지연, 고대역폭 인터커넥트를 정의합니다.
| 사양 | UALink 1.0 |
|---|---|
| 레인당 데이터 전송률 | 200 GT/s 양방향 |
| 시그널링 속도 | 212.5 GT/s (FEC 오버헤드 포함) |
| 링크 너비 | x1, x2, x4 |
| 최대 대역폭 | 800 GB/s (x4 구성) |
| 최대 규모 | 1,024 가속기 |
| 케이블 길이 | 4미터 미만 최적화 |
| 지연시간 목표 | 왕복 1 µs 미만 (64B/640B 페이로드) |
UALink 스위치는 가속기당 하나의 포트를 할당하고 패브릭 전체에서 정밀한 라우팅을 위해 10비트 고유 식별자를 사용합니다.
UALink vs NVLink: 직접 비교
| 지표 | UALink 1.0 | NVLink 4.0 (Hopper) | NVLink 5.0 (Blackwell) |
|---|---|---|---|
| GPU당 대역폭 | 800 GB/s | 900 GB/s | 1.8 TB/s |
| GPU당 링크 수 | 4 | 18 | 18 |
| 최대 GPU 수 | 1,024 | 256 | 576 |
| 벤더 종속 | 개방형 표준 | Nvidia 전용 | Nvidia 전용 |
| 하드웨어 가용성 | 2026년 말/2027년 | 양산 중 | 양산 중 |
NVLink 5.0은 UALink 1.0보다 연결당 3배 이상의 대역폭을 제공합니다(2,538 GB/s vs 800 GB/s). 그러나 UALink는 거의 2배의 최대 클러스터 크기(1,024 vs 576 GPU)를 지원하고 여러 벤더에 걸쳐 작동합니다.
설계 철학의 차이
NVLink는 밀집된 가속기 간 최대 대역폭이 가장 중요한 고밀도 동종 GPU 클러스터에 최적화되어 있습니다. 이 기술은 모든 구성 요소가 Nvidia에서 제공되는 DGX 시스템과 NVL72 랙에서 뛰어납니다.
UALink는 조직이 다른 벤더의 가속기를 혼합하거나 더 큰 논리적 클러스터가 필요한 모듈형 랙 규모 아키텍처를 대상으로 합니다. 개방형 표준은 AMD MI 시리즈, Intel Gaudi 및 미래의 가속기가 공통 패브릭을 통해 통신할 수 있게 합니다.
AMD의 현재 위치
AMD의 Infinity Fabric은 완전 연결 메시에서 최대 8개의 MI300X 또는 MI355X GPU를 연결합니다. 각 MI300X는 링크당 16개 레인을 가진 7개의 Infinity Fabric 링크를 탑재하여 약 1.075 TB/s의 피어 투 피어 대역폭을 제공합니다.
한계: 8개 GPU를 초과하여 확장하려면 이더넷 네트워킹이 필요합니다. AMD의 로드맵에는 PCIe Gen7 링크를 통해 작동하는 AFL(Accelerated Fabric Link)과 멀티 벤더 상호 운용성을 위한 UALink 채택이 포함됩니다.
CXL 4.0: 경계 없는 메모리
메모리 벽 문제
AI 워크로드는 점점 더 컴퓨팅 한계보다 먼저 메모리 병목에 부딪힙니다. 대규모 언어 모델은 추론 중 KV 캐시에 테라바이트 규모의 메모리가 필요하고, 훈련 실행은 활성화 값과 옵티마이저 상태를 위해 더 많은 메모리를 요구합니다.
전통적인 서버 아키텍처는 메모리를 CPU에 직접 연결하여 워크로드가 변할 때 유휴 용량을 만듭니다. CXL은 메모리를 컴퓨팅에서 분리하여 노드 간 동적 할당을 가능하게 합니다.
CXL 4.0 사양
CXL 컨소시엄은 2025년 11월 18일 Supercomputing 2025에서 CXL 4.0을 발표했습니다.
| 사양 | CXL 3.0/3.1 | CXL 4.0 |
|---|---|---|
| 시그널링 속도 | 64 GT/s | 128 GT/s |
| PCIe 세대 | PCIe 6.0 | PCIe 7.0 |
| 대역폭 | 256 GB/s (x16) | 512 GB/s (x16) |
| 리타이머 | 2 | 4 |
| 링크 너비 | x16, x8, x4, x1 | x16, x8, x4, x2, x1 |
| 토폴로지 | 단일 랙 | 멀티랙 |
주요 CXL 4.0 기능
번들 포트: CXL 4.0은 호스트와 디바이스가 여러 물리적 포트를 단일 논리적 연결로 결합할 수 있는 포트 집계를 도입합니다. 이를 통해 시스템이 하나의 디바이스로 인식하는 단순한 소프트웨어 모델을 유지하면서 더 높은 대역폭을 제공합니다.
확장된 도달 범위: 4개의 리타이머가 신호 품질을 희생하지 않고 멀티랙 구성을 가능하게 합니다. CXL 3.x는 배포를 단일 랙 토폴로지로 제한했지만, CXL 4.0은 데이터센터 통로 전체에 걸쳐 메모리 풀링을 확장합니다.
메모리 용량: CXL 메모리 풀링은 단일 CPU에 100+ 테라바이트의 메모리를 연결할 수 있게 하여, 대규모 데이터셋을 마이닝하거나 메모리 집약적 AI 워크로드를 실행하는 조직에 유용합니다.
네이티브 x2 링크: 새로운 x2 링크 너비 옵션은 중간 정도의 대역폭이 필요한 애플리케이션의 비용을 줄여 엣지 배포에서 CXL 경제성을 개선합니다.
CXL 메모리 풀링 성능
CXL DevCon 2025에서의 시연은 OPT-6.7B 모델을 실행하는 NVIDIA H100 GPU가 장착된 두 서버를 보여주었습니다:
| 구성 | 성능 |
|---|---|
| CXL 메모리 풀 | 기준선 |
| 200G RDMA | 3.8배 느림 |
| 100G RDMA | 6.5배 느림 |
CXL은 NVMe의 ~100 µs 및 스토리지 기반 메모리 공유의 >10 ms와 비교하여 200-500 ns 범위의 지연시간으로 메모리 시맨틱 액세스를 제공합니다.
전력 및 효율성 향상
연구에 따르면 CXL은 [메모리 전력 소비를 20-30% 절감](https://computeexpresslink.org/blog/over
[번역을 위해 내용 생략됨]