Cerebras 웨이퍼 스케일 엔진: 대안적 AI 아키텍처를 선택해야 할 때
2025년 12월 11일 업데이트
2025년 12월 업데이트: WSE-3를 탑재한 CS-3가 사용자당 2,500 토큰/초로 Llama 4 Maverick을 제공—동일한 4,000억 파라미터 모델을 실행하는 DGX B200 Blackwell보다 2배 이상 빠릅니다. WSE-3는 4조 개의 트랜지스터, 900,000개의 AI 코어, 21 PB/s 메모리 대역폭(H100의 7,000배)을 제공하는 44GB 온칩 SRAM을 포함합니다. 웨이퍼 스케일 아키텍처는 메모리 대역폭 제한 워크로드에서 GPU 클러스터 인터커넥트 병목 현상을 제거합니다.
Cerebras는 사용자당 초당 2,500 토큰으로 Llama 4 Maverick 추론을 제공했습니다—동일한 4,000억 파라미터 모델을 실행하는 NVIDIA의 플래그십 DGX B200 Blackwell 시스템보다 두 배 이상 빠릅니다.¹ 이러한 성능 격차는 근본적인 아키텍처 차이를 반영합니다: Cerebras는 웨이퍼를 수백 개의 개별 칩으로 자르는 대신 전체 실리콘 웨이퍼로 프로세서를 구축합니다. 이 접근 방식은 GPU 클러스터를 제약하는 인터커넥트 병목 현상을 제거하고, 기존 제조 경제성을 메모리 대역폭 제한 AI 워크로드의 원시 성능으로 교환합니다.
WSE-3(웨이퍼 스케일 엔진 3)로 구동되는 CS-3는 21 페타바이트/초의 메모리 대역폭을 제공하는 44GB 온칩 SRAM과 함께 900,000개의 AI 최적화 코어에 걸쳐 4조 개의 트랜지스터를 포함합니다.² 참고로, 이 메모리 대역폭은 H100보다 7,000배 높습니다. AI 인프라를 평가하는 조직들은 진정한 아키텍처 선택에 직면합니다: 내재된 통신 오버헤드가 있는 GPU 클러스터로 수평 확장하거나, LLM 성능을 지배하는 메모리 대역폭 제약을 위해 특별히 제작된 웨이퍼 스케일 시스템을 배포하는 것입니다.
웨이퍼 스케일 접근 방식
전통적인 칩 제조
표준 반도체 제조는 잘 확립된 패턴을 따릅니다:³
- 제조: 수백 단계의 공정을 통해 실리콘 웨이퍼 처리
- 테스트: 결함 영역 식별
- 다이싱: 웨이퍼를 수백 개의 개별 다이로 절단
- 패키징: 양품 다이를 연결부가 있는 패키지에 장착
- 통합: 시스템을 위해 여러 패키지 연결
이 접근 방식은 최대 약 800 제곱밀리미터의 칩을 생산합니다—이는 리소그래피 장비와 수율 경제학에 의해 부과되는 한계입니다. 칩이 클수록 다이당 결함이 많아져 각 웨이퍼에서 기능하는 유닛 수가 줄어듭니다.
Cerebras의 혁신
Cerebras는 제조 방정식을 뒤집었습니다:⁴
단일 칩 웨이퍼: 웨이퍼를 작은 칩으로 자르는 대신, Cerebras는 거의 전체 300mm 웨이퍼(46,225 mm²)를 하나의 프로세서로 사용합니다—기존 GPU 다이보다 약 50배 큽니다.
결함 허용: 전통적인 웨이퍼 스케일 칩을 막았던 수율 문제는 아키텍처 혁신을 통해 해결되었습니다: - 개별 코어를 0.05mm²로 축소(H100 SM 코어 크기의 1%) - 중복 코어가 결함 있는 코어를 대체 - 온칩 패브릭이 장애를 우회하여 라우팅 - 기존 멀티코어 프로세서 대비 100배의 결함 허용 개선
온칩 통합: 메모리, 컴퓨팅, 인터커넥트가 모두 동일한 실리콘에 상주하여 외부 메모리 및 칩 간 연결의 대역폭 제한을 제거합니다.
아키텍처 장점
웨이퍼 스케일 접근 방식은 구체적인 이점을 제공합니다:⁵
메모리 대역폭: - WSE-3: 21 PB/s 온칩 SRAM 대역폭 - H100: 3 TB/s HBM 대역폭 - 비율: 7,000배 우위
인터커넥트 대역폭: - WSE-3: 214 Pb/s 온웨이퍼 패브릭 - H100 NVLink: GPU당 57.6 GB/s - 비율: 3,715배 우위
메모리 용량: - WSE-3: 44 GB 온칩 SRAM(외부 MemoryX로 확장 가능) - H100: 80 GB HBM3
전력 효율: - 단일 장치 단순성으로 다중 칩 조정 오버헤드 제거 - 외부 메모리 컨트롤러, 인터커넥트 스위치 또는 PCB 트레이스 없음 - 동등한 워크로드에 대해 GPU 클러스터 대비 에너지 효율 우위 보고
WSE-3 및 CS-3 사양
코어 아키텍처
WSE-3는 Cerebras의 웨이퍼 스케일 기술의 3세대를 대표합니다:⁶
실리콘 사양: - 공정 노드: TSMC 5nm - 다이 면적: 46,225 mm² (21.5 cm × 21.5 cm) - 트랜지스터 수: 4조 개 - AI 코어: 900,000개 - 피크 성능: 125 PetaFLOPs (FP16)
메모리 시스템: - 온칩 SRAM: 44 GB - SRAM 대역폭: 21 PB/s - 외부 메모리 확장: MemoryX(시스템당 최대 1.5 PB) - 외부 메모리 대역폭: 독점 고대역폭 인터커넥트
인터커넥트: - 온웨이퍼 패브릭: 214 Pb/s 총 대역폭 - 코어 간 통신: 단일 클록 사이클 지연 - 웨이퍼 내 통신을 위한 오프칩 라우팅 없음
CS-3 시스템
CS-3는 WSE-3를 배포 가능한 시스템으로 패키징합니다:⁷
물리적 사양: - 폼 팩터: 15U 랙 유닛 - 전력 소비: ~23 kW - 냉각: 독점 수냉 시스템
시스템 구성요소: - WSE-3 프로세서 - MemoryX 외부 메모리(선택 사항) - SwarmX 클러스터 인터커넥트(다중 CS-3 배포용) - 관리 및 I/O 시스템
클러스터 확장: - 최대 클러스터: 2,048 CS-3 시스템 - 클러스터 컴퓨팅: 최대 256 ExaFLOPs (FP16) - 모델 용량: 최대 24조 파라미터 - 훈련 능력: 소규모 클러스터에서 하루 만에 Llama 2-70B 훈련 가능
세대별 비교
| 사양 | WSE-1 | WSE-2 | WSE-3 |
|---|---|---|---|
| 공정 노드 | 16nm | 7nm | 5nm |
| 트랜지스터 | 1.2조 | 2.6조 | 4조 |
| AI 코어 | 400,000 | 850,000 | 900,000 |
| 온칩 메모리 | 18 GB | 40 GB | 44 GB |
| 메모리 대역폭 | 9 PB/s | 20 PB/s | 21 PB/s |
| 피크 FP16 | 47 PF | 75 PF | 125 PF |
성능 특성
추론 속도
Cerebras는 상당한 추론 우위를 보여줍니다:⁸
Llama 4 Maverick (4,000억 파라미터): - Cerebras: 2,500+ 토큰/초/사용자 - NVIDIA DGX B200: ~1,000 토큰/초/사용자 - 우위: >2.5배
Llama 3.1 모델: - Llama 3.1 8B: 세계 기록 추론 속도 - Llama 3.1 70B: GPU 대안보다 수 배 빠름 - Llama 3.1 405B: Cerebras 클라우드에서 지원
추론이 뛰어난 이유: LLM 토큰 생성은 메모리 대역폭에서 병목 현상이 발생합니다—각 토큰은 메모리에서 컴퓨팅으로 모델 가중치를 로드해야 합니다. Cerebras의 21 PB/s 온칩 대역폭은 GPU 추론을 제약하는 메모리 벽을 제거합니다.
훈련 성능
훈련 장점은 단순화된 분산 컴퓨팅에서 나타납니다:⁹
코드 복잡성 감소: 4,000개의 GPU에서 1,750억 파라미터 모델을 훈련하려면 일반적으로 약 20,000줄의 분산 훈련 코드가 필요합니다. Cerebras는 565줄로 동등한 훈련을 수행합니다—전체 모델이 데이터 병렬 처리 복잡성 없이 웨이퍼에 맞습니다.
통신 제거: GPU 훈련 성능은 그래디언트 동기화 오버헤드로 인해 클러스터 크기가 증가함에 따라 저하됩니다. Cerebras는 온칩에 맞는 모델에 대해 이 오버헤드를 제거하여 적절한 워크로드에 대해 선형 확장을 유지합니다.
훈련 시간 벤치마크: - Llama 2-70B: CS-3 클러스터에서 하루 만에 훈련 가능 - 최대 24조 파라미터 모델: 소프트웨어 분산 트릭 없이 지원
과학 컴퓨팅
LLM 외에도 Cerebras는 과학 시뮬레이션에서 장점을 보여줍니다:¹⁰
분자 동역학: Cerebras는 세계 1위 슈퍼컴퓨터(Frontier)보다 179배 빠른 장시간 분자 동역학 시뮬레이션을 달성했습니다. 워크로드의 메모리 액세스 패턴이 웨이퍼 스케일 아키텍처와 잘 맞습니다.
신약 개발: Mayo Clinic은 기존 GPU보다 "수백 배 빠르게" Cerebras에서 실행되는 암 약물 반응 예측 모델을 배포했습니다.
유전체학: Mayo Genomic Foundation Model은 대규모 유전체 분석을 위해 Cerebras 인프라에서 특별히 구축되었습니다.
Cerebras vs. NVIDIA 비교
Cerebras가 뛰어난 영역
메모리 대역폭 제한 워크로드:¹¹ - LLM 추론(특히 대형 모델) - 온칩에 맞는 모델 훈련 - 스트리밍 메모리 액세스를 갖는 과학 시뮬레이션 - 일관된 낮은 지연이 필요한 실시간 추론
단순화된 배포: - 중간 규모 모델을 위한 단일 장치 훈련(분산 훈련 코드 없음) - 결정론적 성능(다중 칩 조정 분산 없음) - 인프라 복잡성 감소(소규모 배포에 InfiniBand 패브릭 불필요)
비용 효율성(주장): - DGX B200의 1/3 비용으로 21배 빠른 추론 - $0.10/백만 토큰 (Llama 3.1 8B) - $0.60/백만 토큰 (Llama 3.1 70B)
NVIDIA가 뛰어난 영역
생태계 폭:¹² - CUDA 프로그래밍 모델이 업계를 지배 - 가장 넓은 소프트웨어 프레임워크 지원 - 가장 큰 개발자 커뮤니티 - 가장 광범위한 모델 최적화 라이브러리
워크로드 유연성: - 동일한 하드웨어에서 훈련과 추론 - 넓은 모델 아키텍처 지원 - CUDA를 통한 커스텀 연산 개발 - 확립된 엔터프라이즈 배포 패턴
공급망 성숙도: - 다수의 OEM 시스템 통합업체 - 글로벌 지원 인프라 - 검증된 엔터프라이즈 조달 경로 - 중고 장비 2차 시장
파인튜닝 및 커스터마이징: - LoRA, QLoRA, 전체 파인튜닝 잘 지원 - 광범위한 도구 생태계 - 엔터프라이즈 파인튜닝 워크플로우 확립
의사결정 매트릭스
| 요소 | Cerebras 선택 | NVIDIA 선택 |
|---|---|---|
| 주요 워크로드 | 추론 중심 | 훈련 중심 |
| 모델 크기 | 대형 (70B+) | 모든 크기 |
| 지연 요구사항 | 초저지연, 일관성 | 중간 |
| 팀 전문성 | 제한된 ML 인프라 | 강력한 CUDA/분산 |
| 커스터마이징 필요 | 표준 모델 | 커스텀 아키텍처 |
| 기존 투자 | 그린필드 | GPU 인프라 존재 |
| 위험 허용도 | 높음 (새로운 생태계) | 낮음 (검증됨) |
배포 옵션
Cerebras Cloud
즉각적인 액세스를 위한 관리형 추론 서비스:¹³
가격 (2025년 12월): - Llama 3.1 8B: $0.10/백만 토큰 - Llama 3.1 70B: $0.60/백만 토큰 - Llama 3.1 405B: 이용 가능 - Llama 4 Scout/Maverick: 지원
기능: - OpenAI 호환 API - 테스트를 위한 웹 플레이그라운드 - 엔터프라이즈 지원 티어 - SOC 2 준수
사용 사례: - 속도가 필요한 프로덕션 추론 - 온프레미스 투자 전 평가 - 자본 투입 없이 가변 워크로드
온프레미스 배포
프라이빗 인프라를 위한 CS-3 시스템:¹⁴
고려사항: - 상당한 자본 투자 - 독점 냉각 요구사항 - 전문 설치 및 지원 - 제한된 2차 시장(GPU와 달리)
최적 대상: - 데이터 주권 요구사항 - 지속적인 높은 활용도 - 커스텀 통합 필요 - 클라우드 대비 전략적 차별화
전용 인프라
Cerebras는 전용 데이터센터를 운영합니다:¹⁵
위치 (2025): - 오클라호마시티, 미국 (300+ CS-3 시스템) - 몬트리올, 캐나다 (2025년 7월 운영) - 댈러스, 미국 - 리노, 미국 - 아일랜드 - 헬데를란트, 네덜란드
용량: - 초당 4,000만+ 토큰 총 용량 - 2025년 20배 용량 확장 - 추가 시설을 위한 G42와의 파트너십
전용 테넌트 옵션: - 보장된 용량 할당 - 커스텀 SLA 계약 - 엔터프라이즈 통합 지원
고객 배포
엔터프라이즈 도입
Cerebras를 배포하는 주요 조직:¹⁶
기술: - Meta: Llama API를 구동하는 파트너십 - Mistral: Le Chat AI 어시스턴트 - Perplexity: AI 검색 엔진 - IBM: 엔터프라이즈 AI 애플리케이션
헬스케어: - Mayo Clinic: Genomic Foundation Model - GlaxoSmithKline: 신약 개발 - 암 약물 반응 예측 모델
정부: - 미국 에너지부 - 미국 국방부 - DARPA MAPLE 프로그램 (다중 도메인 전장 시뮬레이션을 위한 $4,500만 계약)
소버린 AI 이니셔티브
Cerebras for Nations 프로그램은 정부 AI 인프라를 지원합니다:¹⁷
현재 참여: - 미국 - 영국 - 아랍에미리트 (G42 파트너십)
확장 대상: - 인도 - 유럽 (여러 국가) - 중동 - 아시아 태평양 - 라틴 아메리카
가치 제안: - 국내 AI 인프라 - 데이터 주권 준수 - 국가 역량 개발 - 해외 클라우드 의존도 감소
인프라 고려사항
전력 및 냉각
Cerebras 시스템은 전문화된 인프라가 필요합니다:¹⁸
전력 요구사항: - CS-3: 시스템당 ~23 kW
[번역을 위해 콘텐츠 잘림]