Cerebras 웨이퍼 스케일 엔진: 대안적 AI 아키텍처를 선택해야 할 때

WSE-3를 탑재한 CS-3가 사용자당 2,500 토큰/초로 Llama 4 Maverick을 제공—DGX B200 Blackwell보다 2배 이상 빠름. WSE-3는 4조 개의 트랜지스터, 900,000개의 AI 코어, 21 PB/s 메모리 대역폭을 갖춘 44GB 온칩 SRAM 탑재(H100 대비 7,000배)...

Blake Crosley

Apr 04, 2026 7 min read Disclaimer

Cerebras 웨이퍼 스케일 엔진: 대안적 AI 아키텍처를 선택해야 할 때

2025년 12월 11일 업데이트

2025년 12월 업데이트: WSE-3를 탑재한 CS-3가 사용자당 2,500 토큰/초로 Llama 4 Maverick을 제공—동일한 4,000억 파라미터 모델을 실행하는 DGX B200 Blackwell보다 2배 이상 빠릅니다. WSE-3는 4조 개의 트랜지스터, 900,000개의 AI 코어, 21 PB/s 메모리 대역폭(H100의 7,000배)을 제공하는 44GB 온칩 SRAM을 포함합니다. 웨이퍼 스케일 아키텍처는 메모리 대역폭 제한 워크로드에서 GPU 클러스터 인터커넥트 병목 현상을 제거합니다.

Cerebras는 사용자당 초당 2,500 토큰으로 Llama 4 Maverick 추론을 제공했습니다—동일한 4,000억 파라미터 모델을 실행하는 NVIDIA의 플래그십 DGX B200 Blackwell 시스템보다 두 배 이상 빠릅니다.¹ 이러한 성능 격차는 근본적인 아키텍처 차이를 반영합니다: Cerebras는 웨이퍼를 수백 개의 개별 칩으로 자르는 대신 전체 실리콘 웨이퍼로 프로세서를 구축합니다. 이 접근 방식은 GPU 클러스터를 제약하는 인터커넥트 병목 현상을 제거하고, 기존 제조 경제성을 메모리 대역폭 제한 AI 워크로드의 원시 성능으로 교환합니다.

WSE-3(웨이퍼 스케일 엔진 3)로 구동되는 CS-3는 21 페타바이트/초의 메모리 대역폭을 제공하는 44GB 온칩 SRAM과 함께 900,000개의 AI 최적화 코어에 걸쳐 4조 개의 트랜지스터를 포함합니다.² 참고로, 이 메모리 대역폭은 H100보다 7,000배 높습니다. AI 인프라를 평가하는 조직들은 진정한 아키텍처 선택에 직면합니다: 내재된 통신 오버헤드가 있는 GPU 클러스터로 수평 확장하거나, LLM 성능을 지배하는 메모리 대역폭 제약을 위해 특별히 제작된 웨이퍼 스케일 시스템을 배포하는 것입니다.

웨이퍼 스케일 접근 방식

전통적인 칩 제조

표준 반도체 제조는 잘 확립된 패턴을 따릅니다:³

제조: 수백 단계의 공정을 통해 실리콘 웨이퍼 처리
테스트: 결함 영역 식별
다이싱: 웨이퍼를 수백 개의 개별 다이로 절단
패키징: 양품 다이를 연결부가 있는 패키지에 장착
통합: 시스템을 위해 여러 패키지 연결

이 접근 방식은 최대 약 800 제곱밀리미터의 칩을 생산합니다—이는 리소그래피 장비와 수율 경제학에 의해 부과되는 한계입니다. 칩이 클수록 다이당 결함이 많아져 각 웨이퍼에서 기능하는 유닛 수가 줄어듭니다.

Cerebras의 혁신

Cerebras는 제조 방정식을 뒤집었습니다:⁴

단일 칩 웨이퍼: 웨이퍼를 작은 칩으로 자르는 대신, Cerebras는 거의 전체 300mm 웨이퍼(46,225 mm²)를 하나의 프로세서로 사용합니다—기존 GPU 다이보다 약 50배 큽니다.

결함 허용: 전통적인 웨이퍼 스케일 칩을 막았던 수율 문제는 아키텍처 혁신을 통해 해결되었습니다: - 개별 코어를 0.05mm²로 축소(H100 SM 코어 크기의 1%) - 중복 코어가 결함 있는 코어를 대체 - 온칩 패브릭이 장애를 우회하여 라우팅 - 기존 멀티코어 프로세서 대비 100배의 결함 허용 개선

온칩 통합: 메모리, 컴퓨팅, 인터커넥트가 모두 동일한 실리콘에 상주하여 외부 메모리 및 칩 간 연결의 대역폭 제한을 제거합니다.

아키텍처 장점

웨이퍼 스케일 접근 방식은 구체적인 이점을 제공합니다:⁵

메모리 대역폭: - WSE-3: 21 PB/s 온칩 SRAM 대역폭 - H100: 3 TB/s HBM 대역폭 - 비율: 7,000배 우위

인터커넥트 대역폭: - WSE-3: 214 Pb/s 온웨이퍼 패브릭 - H100 NVLink: GPU당 57.6 GB/s - 비율: 3,715배 우위

메모리 용량: - WSE-3: 44 GB 온칩 SRAM(외부 MemoryX로 확장 가능) - H100: 80 GB HBM3

전력 효율: - 단일 장치 단순성으로 다중 칩 조정 오버헤드 제거 - 외부 메모리 컨트롤러, 인터커넥트 스위치 또는 PCB 트레이스 없음 - 동등한 워크로드에 대해 GPU 클러스터 대비 에너지 효율 우위 보고

WSE-3 및 CS-3 사양

코어 아키텍처

WSE-3는 Cerebras의 웨이퍼 스케일 기술의 3세대를 대표합니다:⁶

실리콘 사양: - 공정 노드: TSMC 5nm - 다이 면적: 46,225 mm² (21.5 cm × 21.5 cm) - 트랜지스터 수: 4조 개 - AI 코어: 900,000개 - 피크 성능: 125 PetaFLOPs (FP16)

메모리 시스템: - 온칩 SRAM: 44 GB - SRAM 대역폭: 21 PB/s - 외부 메모리 확장: MemoryX(시스템당 최대 1.5 PB) - 외부 메모리 대역폭: 독점 고대역폭 인터커넥트

인터커넥트: - 온웨이퍼 패브릭: 214 Pb/s 총 대역폭 - 코어 간 통신: 단일 클록 사이클 지연 - 웨이퍼 내 통신을 위한 오프칩 라우팅 없음

CS-3 시스템

CS-3는 WSE-3를 배포 가능한 시스템으로 패키징합니다:⁷

물리적 사양: - 폼 팩터: 15U 랙 유닛 - 전력 소비: ~23 kW - 냉각: 독점 수냉 시스템

시스템 구성요소: - WSE-3 프로세서 - MemoryX 외부 메모리(선택 사항) - SwarmX 클러스터 인터커넥트(다중 CS-3 배포용) - 관리 및 I/O 시스템

클러스터 확장: - 최대 클러스터: 2,048 CS-3 시스템 - 클러스터 컴퓨팅: 최대 256 ExaFLOPs (FP16) - 모델 용량: 최대 24조 파라미터 - 훈련 능력: 소규모 클러스터에서 하루 만에 Llama 2-70B 훈련 가능

세대별 비교

사양	WSE-1	WSE-2	WSE-3
공정 노드	16nm	7nm	5nm
트랜지스터	1.2조	2.6조	4조
AI 코어	400,000	850,000	900,000
온칩 메모리	18 GB	40 GB	44 GB
메모리 대역폭	9 PB/s	20 PB/s	21 PB/s
피크 FP16	47 PF	75 PF	125 PF

성능 특성

추론 속도

Cerebras는 상당한 추론 우위를 보여줍니다:⁸

Llama 4 Maverick (4,000억 파라미터): - Cerebras: 2,500+ 토큰/초/사용자 - NVIDIA DGX B200: ~1,000 토큰/초/사용자 - 우위: >2.5배

Llama 3.1 모델: - Llama 3.1 8B: 세계 기록 추론 속도 - Llama 3.1 70B: GPU 대안보다 수 배 빠름 - Llama 3.1 405B: Cerebras 클라우드에서 지원

추론이 뛰어난 이유: LLM 토큰 생성은 메모리 대역폭에서 병목 현상이 발생합니다—각 토큰은 메모리에서 컴퓨팅으로 모델 가중치를 로드해야 합니다. Cerebras의 21 PB/s 온칩 대역폭은 GPU 추론을 제약하는 메모리 벽을 제거합니다.

훈련 성능

훈련 장점은 단순화된 분산 컴퓨팅에서 나타납니다:⁹

코드 복잡성 감소: 4,000개의 GPU에서 1,750억 파라미터 모델을 훈련하려면 일반적으로 약 20,000줄의 분산 훈련 코드가 필요합니다. Cerebras는 565줄로 동등한 훈련을 수행합니다—전체 모델이 데이터 병렬 처리 복잡성 없이 웨이퍼에 맞습니다.

통신 제거: GPU 훈련 성능은 그래디언트 동기화 오버헤드로 인해 클러스터 크기가 증가함에 따라 저하됩니다. Cerebras는 온칩에 맞는 모델에 대해 이 오버헤드를 제거하여 적절한 워크로드에 대해 선형 확장을 유지합니다.

훈련 시간 벤치마크: - Llama 2-70B: CS-3 클러스터에서 하루 만에 훈련 가능 - 최대 24조 파라미터 모델: 소프트웨어 분산 트릭 없이 지원

과학 컴퓨팅

LLM 외에도 Cerebras는 과학 시뮬레이션에서 장점을 보여줍니다:¹⁰

분자 동역학: Cerebras는 세계 1위 슈퍼컴퓨터(Frontier)보다 179배 빠른 장시간 분자 동역학 시뮬레이션을 달성했습니다. 워크로드의 메모리 액세스 패턴이 웨이퍼 스케일 아키텍처와 잘 맞습니다.

신약 개발: Mayo Clinic은 기존 GPU보다 "수백 배 빠르게" Cerebras에서 실행되는 암 약물 반응 예측 모델을 배포했습니다.

유전체학: Mayo Genomic Foundation Model은 대규모 유전체 분석을 위해 Cerebras 인프라에서 특별히 구축되었습니다.

Cerebras vs. NVIDIA 비교

Cerebras가 뛰어난 영역

메모리 대역폭 제한 워크로드:¹¹ - LLM 추론(특히 대형 모델) - 온칩에 맞는 모델 훈련 - 스트리밍 메모리 액세스를 갖는 과학 시뮬레이션 - 일관된 낮은 지연이 필요한 실시간 추론

단순화된 배포: - 중간 규모 모델을 위한 단일 장치 훈련(분산 훈련 코드 없음) - 결정론적 성능(다중 칩 조정 분산 없음) - 인프라 복잡성 감소(소규모 배포에 InfiniBand 패브릭 불필요)

비용 효율성(주장): - DGX B200의 1/3 비용으로 21배 빠른 추론 - $0.10/백만 토큰 (Llama 3.1 8B) - $0.60/백만 토큰 (Llama 3.1 70B)

NVIDIA가 뛰어난 영역

생태계 폭:¹² - CUDA 프로그래밍 모델이 업계를 지배 - 가장 넓은 소프트웨어 프레임워크 지원 - 가장 큰 개발자 커뮤니티 - 가장 광범위한 모델 최적화 라이브러리

워크로드 유연성: - 동일한 하드웨어에서 훈련과 추론 - 넓은 모델 아키텍처 지원 - CUDA를 통한 커스텀 연산 개발 - 확립된 엔터프라이즈 배포 패턴

공급망 성숙도: - 다수의 OEM 시스템 통합업체 - 글로벌 지원 인프라 - 검증된 엔터프라이즈 조달 경로 - 중고 장비 2차 시장

파인튜닝 및 커스터마이징: - LoRA, QLoRA, 전체 파인튜닝 잘 지원 - 광범위한 도구 생태계 - 엔터프라이즈 파인튜닝 워크플로우 확립

의사결정 매트릭스

요소	Cerebras 선택	NVIDIA 선택
주요 워크로드	추론 중심	훈련 중심
모델 크기	대형 (70B+)	모든 크기
지연 요구사항	초저지연, 일관성	중간
팀 전문성	제한된 ML 인프라	강력한 CUDA/분산
커스터마이징 필요	표준 모델	커스텀 아키텍처
기존 투자	그린필드	GPU 인프라 존재
위험 허용도	높음 (새로운 생태계)	낮음 (검증됨)

배포 옵션

Cerebras Cloud

즉각적인 액세스를 위한 관리형 추론 서비스:¹³

가격 (2025년 12월): - Llama 3.1 8B: $0.10/백만 토큰 - Llama 3.1 70B: $0.60/백만 토큰 - Llama 3.1 405B: 이용 가능 - Llama 4 Scout/Maverick: 지원

기능: - OpenAI 호환 API - 테스트를 위한 웹 플레이그라운드 - 엔터프라이즈 지원 티어 - SOC 2 준수

사용 사례: - 속도가 필요한 프로덕션 추론 - 온프레미스 투자 전 평가 - 자본 투입 없이 가변 워크로드

온프레미스 배포

프라이빗 인프라를 위한 CS-3 시스템:¹⁴

고려사항: - 상당한 자본 투자 - 독점 냉각 요구사항 - 전문 설치 및 지원 - 제한된 2차 시장(GPU와 달리)

최적 대상: - 데이터 주권 요구사항 - 지속적인 높은 활용도 - 커스텀 통합 필요 - 클라우드 대비 전략적 차별화

전용 인프라

Cerebras는 전용 데이터센터를 운영합니다:¹⁵

위치 (2025): - 오클라호마시티, 미국 (300+ CS-3 시스템) - 몬트리올, 캐나다 (2025년 7월 운영) - 댈러스, 미국 - 리노, 미국 - 아일랜드 - 헬데를란트, 네덜란드

용량: - 초당 4,000만+ 토큰 총 용량 - 2025년 20배 용량 확장 - 추가 시설을 위한 G42와의 파트너십

전용 테넌트 옵션: - 보장된 용량 할당 - 커스텀 SLA 계약 - 엔터프라이즈 통합 지원

고객 배포

엔터프라이즈 도입

Cerebras를 배포하는 주요 조직:¹⁶

기술: - Meta: Llama API를 구동하는 파트너십 - Mistral: Le Chat AI 어시스턴트 - Perplexity: AI 검색 엔진 - IBM: 엔터프라이즈 AI 애플리케이션

헬스케어: - Mayo Clinic: Genomic Foundation Model - GlaxoSmithKline: 신약 개발 - 암 약물 반응 예측 모델

정부: - 미국 에너지부 - 미국 국방부 - DARPA MAPLE 프로그램 (다중 도메인 전장 시뮬레이션을 위한 $4,500만 계약)

소버린 AI 이니셔티브

Cerebras for Nations 프로그램은 정부 AI 인프라를 지원합니다:¹⁷

현재 참여: - 미국 - 영국 - 아랍에미리트 (G42 파트너십)

확장 대상: - 인도 - 유럽 (여러 국가) - 중동 - 아시아 태평양 - 라틴 아메리카

가치 제안: - 국내 AI 인프라 - 데이터 주권 준수 - 국가 역량 개발 - 해외 클라우드 의존도 감소

인프라 고려사항

전력 및 냉각

Cerebras 시스템은 전문화된 인프라가 필요합니다:¹⁸

전력 요구사항: - CS-3: 시스템당 ~23 kW

[번역을 위해 콘텐츠 잘림]

Cerebras 웨이퍼 스케일 엔진: 대안적 AI 아키텍처를 선택해야 할 때

웨이퍼 스케일 접근 방식

전통적인 칩 제조

Cerebras의 혁신

아키텍처 장점

WSE-3 및 CS-3 사양

코어 아키텍처

CS-3 시스템

세대별 비교

성능 특성

추론 속도

훈련 성능

과학 컴퓨팅

Cerebras vs. NVIDIA 비교

Cerebras가 뛰어난 영역

NVIDIA가 뛰어난 영역

의사결정 매트릭스

배포 옵션

Cerebras Cloud

온프레미스 배포

전용 인프라

고객 배포

엔터프라이즈 도입

소버린 AI 이니셔티브

인프라 고려사항

전력 및 냉각

You Might Also Like

케이블 관리 시스템: AI 데이터 센터를 위한 광섬유 경로 및 고밀도 라우팅

AI 데이터 파이프라인 아키텍처: 100GB/s로 페타바이트 규모 학습 데이터 공급하기

AI 인프라 용량 계획: 2025-2030 GPU 요구량 예측

견적 요청_

요청이 접수되었습니다_