Cerebras 웨이퍼 스케일 엔진: 대안적 AI 아키텍처를 선택해야 할 때

WSE-3를 탑재한 CS-3가 사용자당 2,500 토큰/초로 Llama 4 Maverick을 제공—DGX B200 Blackwell보다 2배 이상 빠름. WSE-3는 4조 개의 트랜지스터, 900,000개의 AI 코어, 21 PB/s 메모리 대역폭을 갖춘 44GB 온칩 SRAM 탑재(H100 대비 7,000배)...

Cerebras 웨이퍼 스케일 엔진: 대안적 AI 아키텍처를 선택해야 할 때

Cerebras 웨이퍼 스케일 엔진: 대안적 AI 아키텍처를 선택해야 할 때

2025년 12월 11일 업데이트

2025년 12월 업데이트: WSE-3를 탑재한 CS-3가 사용자당 2,500 토큰/초로 Llama 4 Maverick을 제공—동일한 4,000억 파라미터 모델을 실행하는 DGX B200 Blackwell보다 2배 이상 빠릅니다. WSE-3는 4조 개의 트랜지스터, 900,000개의 AI 코어, 21 PB/s 메모리 대역폭(H100의 7,000배)을 제공하는 44GB 온칩 SRAM을 포함합니다. 웨이퍼 스케일 아키텍처는 메모리 대역폭 제한 워크로드에서 GPU 클러스터 인터커넥트 병목 현상을 제거합니다.

Cerebras는 사용자당 초당 2,500 토큰으로 Llama 4 Maverick 추론을 제공했습니다—동일한 4,000억 파라미터 모델을 실행하는 NVIDIA의 플래그십 DGX B200 Blackwell 시스템보다 두 배 이상 빠릅니다.¹ 이러한 성능 격차는 근본적인 아키텍처 차이를 반영합니다: Cerebras는 웨이퍼를 수백 개의 개별 칩으로 자르는 대신 전체 실리콘 웨이퍼로 프로세서를 구축합니다. 이 접근 방식은 GPU 클러스터를 제약하는 인터커넥트 병목 현상을 제거하고, 기존 제조 경제성을 메모리 대역폭 제한 AI 워크로드의 원시 성능으로 교환합니다.

WSE-3(웨이퍼 스케일 엔진 3)로 구동되는 CS-3는 21 페타바이트/초의 메모리 대역폭을 제공하는 44GB 온칩 SRAM과 함께 900,000개의 AI 최적화 코어에 걸쳐 4조 개의 트랜지스터를 포함합니다.² 참고로, 이 메모리 대역폭은 H100보다 7,000배 높습니다. AI 인프라를 평가하는 조직들은 진정한 아키텍처 선택에 직면합니다: 내재된 통신 오버헤드가 있는 GPU 클러스터로 수평 확장하거나, LLM 성능을 지배하는 메모리 대역폭 제약을 위해 특별히 제작된 웨이퍼 스케일 시스템을 배포하는 것입니다.

웨이퍼 스케일 접근 방식

전통적인 칩 제조

표준 반도체 제조는 잘 확립된 패턴을 따릅니다:³

  1. 제조: 수백 단계의 공정을 통해 실리콘 웨이퍼 처리
  2. 테스트: 결함 영역 식별
  3. 다이싱: 웨이퍼를 수백 개의 개별 다이로 절단
  4. 패키징: 양품 다이를 연결부가 있는 패키지에 장착
  5. 통합: 시스템을 위해 여러 패키지 연결

이 접근 방식은 최대 약 800 제곱밀리미터의 칩을 생산합니다—이는 리소그래피 장비와 수율 경제학에 의해 부과되는 한계입니다. 칩이 클수록 다이당 결함이 많아져 각 웨이퍼에서 기능하는 유닛 수가 줄어듭니다.

Cerebras의 혁신

Cerebras는 제조 방정식을 뒤집었습니다:⁴

단일 칩 웨이퍼: 웨이퍼를 작은 칩으로 자르는 대신, Cerebras는 거의 전체 300mm 웨이퍼(46,225 mm²)를 하나의 프로세서로 사용합니다—기존 GPU 다이보다 약 50배 큽니다.

결함 허용: 전통적인 웨이퍼 스케일 칩을 막았던 수율 문제는 아키텍처 혁신을 통해 해결되었습니다: - 개별 코어를 0.05mm²로 축소(H100 SM 코어 크기의 1%) - 중복 코어가 결함 있는 코어를 대체 - 온칩 패브릭이 장애를 우회하여 라우팅 - 기존 멀티코어 프로세서 대비 100배의 결함 허용 개선

온칩 통합: 메모리, 컴퓨팅, 인터커넥트가 모두 동일한 실리콘에 상주하여 외부 메모리 및 칩 간 연결의 대역폭 제한을 제거합니다.

아키텍처 장점

웨이퍼 스케일 접근 방식은 구체적인 이점을 제공합니다:⁵

메모리 대역폭: - WSE-3: 21 PB/s 온칩 SRAM 대역폭 - H100: 3 TB/s HBM 대역폭 - 비율: 7,000배 우위

인터커넥트 대역폭: - WSE-3: 214 Pb/s 온웨이퍼 패브릭 - H100 NVLink: GPU당 57.6 GB/s - 비율: 3,715배 우위

메모리 용량: - WSE-3: 44 GB 온칩 SRAM(외부 MemoryX로 확장 가능) - H100: 80 GB HBM3

전력 효율: - 단일 장치 단순성으로 다중 칩 조정 오버헤드 제거 - 외부 메모리 컨트롤러, 인터커넥트 스위치 또는 PCB 트레이스 없음 - 동등한 워크로드에 대해 GPU 클러스터 대비 에너지 효율 우위 보고

WSE-3 및 CS-3 사양

코어 아키텍처

WSE-3는 Cerebras의 웨이퍼 스케일 기술의 3세대를 대표합니다:⁶

실리콘 사양: - 공정 노드: TSMC 5nm - 다이 면적: 46,225 mm² (21.5 cm × 21.5 cm) - 트랜지스터 수: 4조 개 - AI 코어: 900,000개 - 피크 성능: 125 PetaFLOPs (FP16)

메모리 시스템: - 온칩 SRAM: 44 GB - SRAM 대역폭: 21 PB/s - 외부 메모리 확장: MemoryX(시스템당 최대 1.5 PB) - 외부 메모리 대역폭: 독점 고대역폭 인터커넥트

인터커넥트: - 온웨이퍼 패브릭: 214 Pb/s 총 대역폭 - 코어 간 통신: 단일 클록 사이클 지연 - 웨이퍼 내 통신을 위한 오프칩 라우팅 없음

CS-3 시스템

CS-3는 WSE-3를 배포 가능한 시스템으로 패키징합니다:⁷

물리적 사양: - 폼 팩터: 15U 랙 유닛 - 전력 소비: ~23 kW - 냉각: 독점 수냉 시스템

시스템 구성요소: - WSE-3 프로세서 - MemoryX 외부 메모리(선택 사항) - SwarmX 클러스터 인터커넥트(다중 CS-3 배포용) - 관리 및 I/O 시스템

클러스터 확장: - 최대 클러스터: 2,048 CS-3 시스템 - 클러스터 컴퓨팅: 최대 256 ExaFLOPs (FP16) - 모델 용량: 최대 24조 파라미터 - 훈련 능력: 소규모 클러스터에서 하루 만에 Llama 2-70B 훈련 가능

세대별 비교

사양 WSE-1 WSE-2 WSE-3
공정 노드 16nm 7nm 5nm
트랜지스터 1.2조 2.6조 4조
AI 코어 400,000 850,000 900,000
온칩 메모리 18 GB 40 GB 44 GB
메모리 대역폭 9 PB/s 20 PB/s 21 PB/s
피크 FP16 47 PF 75 PF 125 PF

성능 특성

추론 속도

Cerebras는 상당한 추론 우위를 보여줍니다:⁸

Llama 4 Maverick (4,000억 파라미터): - Cerebras: 2,500+ 토큰/초/사용자 - NVIDIA DGX B200: ~1,000 토큰/초/사용자 - 우위: >2.5배

Llama 3.1 모델: - Llama 3.1 8B: 세계 기록 추론 속도 - Llama 3.1 70B: GPU 대안보다 수 배 빠름 - Llama 3.1 405B: Cerebras 클라우드에서 지원

추론이 뛰어난 이유: LLM 토큰 생성은 메모리 대역폭에서 병목 현상이 발생합니다—각 토큰은 메모리에서 컴퓨팅으로 모델 가중치를 로드해야 합니다. Cerebras의 21 PB/s 온칩 대역폭은 GPU 추론을 제약하는 메모리 벽을 제거합니다.

훈련 성능

훈련 장점은 단순화된 분산 컴퓨팅에서 나타납니다:⁹

코드 복잡성 감소: 4,000개의 GPU에서 1,750억 파라미터 모델을 훈련하려면 일반적으로 약 20,000줄의 분산 훈련 코드가 필요합니다. Cerebras는 565줄로 동등한 훈련을 수행합니다—전체 모델이 데이터 병렬 처리 복잡성 없이 웨이퍼에 맞습니다.

통신 제거: GPU 훈련 성능은 그래디언트 동기화 오버헤드로 인해 클러스터 크기가 증가함에 따라 저하됩니다. Cerebras는 온칩에 맞는 모델에 대해 이 오버헤드를 제거하여 적절한 워크로드에 대해 선형 확장을 유지합니다.

훈련 시간 벤치마크: - Llama 2-70B: CS-3 클러스터에서 하루 만에 훈련 가능 - 최대 24조 파라미터 모델: 소프트웨어 분산 트릭 없이 지원

과학 컴퓨팅

LLM 외에도 Cerebras는 과학 시뮬레이션에서 장점을 보여줍니다:¹⁰

분자 동역학: Cerebras는 세계 1위 슈퍼컴퓨터(Frontier)보다 179배 빠른 장시간 분자 동역학 시뮬레이션을 달성했습니다. 워크로드의 메모리 액세스 패턴이 웨이퍼 스케일 아키텍처와 잘 맞습니다.

신약 개발: Mayo Clinic은 기존 GPU보다 "수백 배 빠르게" Cerebras에서 실행되는 암 약물 반응 예측 모델을 배포했습니다.

유전체학: Mayo Genomic Foundation Model은 대규모 유전체 분석을 위해 Cerebras 인프라에서 특별히 구축되었습니다.

Cerebras vs. NVIDIA 비교

Cerebras가 뛰어난 영역

메모리 대역폭 제한 워크로드:¹¹ - LLM 추론(특히 대형 모델) - 온칩에 맞는 모델 훈련 - 스트리밍 메모리 액세스를 갖는 과학 시뮬레이션 - 일관된 낮은 지연이 필요한 실시간 추론

단순화된 배포: - 중간 규모 모델을 위한 단일 장치 훈련(분산 훈련 코드 없음) - 결정론적 성능(다중 칩 조정 분산 없음) - 인프라 복잡성 감소(소규모 배포에 InfiniBand 패브릭 불필요)

비용 효율성(주장): - DGX B200의 1/3 비용으로 21배 빠른 추론 - $0.10/백만 토큰 (Llama 3.1 8B) - $0.60/백만 토큰 (Llama 3.1 70B)

NVIDIA가 뛰어난 영역

생태계 폭:¹² - CUDA 프로그래밍 모델이 업계를 지배 - 가장 넓은 소프트웨어 프레임워크 지원 - 가장 큰 개발자 커뮤니티 - 가장 광범위한 모델 최적화 라이브러리

워크로드 유연성: - 동일한 하드웨어에서 훈련과 추론 - 넓은 모델 아키텍처 지원 - CUDA를 통한 커스텀 연산 개발 - 확립된 엔터프라이즈 배포 패턴

공급망 성숙도: - 다수의 OEM 시스템 통합업체 - 글로벌 지원 인프라 - 검증된 엔터프라이즈 조달 경로 - 중고 장비 2차 시장

파인튜닝 및 커스터마이징: - LoRA, QLoRA, 전체 파인튜닝 잘 지원 - 광범위한 도구 생태계 - 엔터프라이즈 파인튜닝 워크플로우 확립

의사결정 매트릭스

요소 Cerebras 선택 NVIDIA 선택
주요 워크로드 추론 중심 훈련 중심
모델 크기 대형 (70B+) 모든 크기
지연 요구사항 초저지연, 일관성 중간
팀 전문성 제한된 ML 인프라 강력한 CUDA/분산
커스터마이징 필요 표준 모델 커스텀 아키텍처
기존 투자 그린필드 GPU 인프라 존재
위험 허용도 높음 (새로운 생태계) 낮음 (검증됨)

배포 옵션

Cerebras Cloud

즉각적인 액세스를 위한 관리형 추론 서비스:¹³

가격 (2025년 12월): - Llama 3.1 8B: $0.10/백만 토큰 - Llama 3.1 70B: $0.60/백만 토큰 - Llama 3.1 405B: 이용 가능 - Llama 4 Scout/Maverick: 지원

기능: - OpenAI 호환 API - 테스트를 위한 웹 플레이그라운드 - 엔터프라이즈 지원 티어 - SOC 2 준수

사용 사례: - 속도가 필요한 프로덕션 추론 - 온프레미스 투자 전 평가 - 자본 투입 없이 가변 워크로드

온프레미스 배포

프라이빗 인프라를 위한 CS-3 시스템:¹⁴

고려사항: - 상당한 자본 투자 - 독점 냉각 요구사항 - 전문 설치 및 지원 - 제한된 2차 시장(GPU와 달리)

최적 대상: - 데이터 주권 요구사항 - 지속적인 높은 활용도 - 커스텀 통합 필요 - 클라우드 대비 전략적 차별화

전용 인프라

Cerebras는 전용 데이터센터를 운영합니다:¹⁵

위치 (2025): - 오클라호마시티, 미국 (300+ CS-3 시스템) - 몬트리올, 캐나다 (2025년 7월 운영) - 댈러스, 미국 - 리노, 미국 - 아일랜드 - 헬데를란트, 네덜란드

용량: - 초당 4,000만+ 토큰 총 용량 - 2025년 20배 용량 확장 - 추가 시설을 위한 G42와의 파트너십

전용 테넌트 옵션: - 보장된 용량 할당 - 커스텀 SLA 계약 - 엔터프라이즈 통합 지원

고객 배포

엔터프라이즈 도입

Cerebras를 배포하는 주요 조직:¹⁶

기술: - Meta: Llama API를 구동하는 파트너십 - Mistral: Le Chat AI 어시스턴트 - Perplexity: AI 검색 엔진 - IBM: 엔터프라이즈 AI 애플리케이션

헬스케어: - Mayo Clinic: Genomic Foundation Model - GlaxoSmithKline: 신약 개발 - 암 약물 반응 예측 모델

정부: - 미국 에너지부 - 미국 국방부 - DARPA MAPLE 프로그램 (다중 도메인 전장 시뮬레이션을 위한 $4,500만 계약)

소버린 AI 이니셔티브

Cerebras for Nations 프로그램은 정부 AI 인프라를 지원합니다:¹⁷

현재 참여: - 미국 - 영국 - 아랍에미리트 (G42 파트너십)

확장 대상: - 인도 - 유럽 (여러 국가) - 중동 - 아시아 태평양 - 라틴 아메리카

가치 제안: - 국내 AI 인프라 - 데이터 주권 준수 - 국가 역량 개발 - 해외 클라우드 의존도 감소

인프라 고려사항

전력 및 냉각

Cerebras 시스템은 전문화된 인프라가 필요합니다:¹⁸

전력 요구사항: - CS-3: 시스템당 ~23 kW

[번역을 위해 콘텐츠 잘림]

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중