Cerebras Wafer-Scale Engine: เมื่อไหร่ควรเลือกสถาปัตยกรรม AI ทางเลือก
อัปเดต 11 ธันวาคม 2025
อัปเดตธันวาคม 2025: CS-3 พร้อม WSE-3 ให้บริการ Llama 4 Maverick ที่ 2,500 โทเค็น/วินาทีต่อผู้ใช้—เร็วกว่า DGX B200 Blackwell มากกว่า 2 เท่า WSE-3 ประกอบด้วยทรานซิสเตอร์ 4 ล้านล้านตัว, AI cores 900,000 ตัว, SRAM บนชิป 44GB พร้อมแบนด์วิดท์หน่วยความจำ 21 PB/s (มากกว่า H100 ถึง 7,000 เท่า) สถาปัตยกรรม wafer-scale ขจัดปัญหาคอขวดของการเชื่อมต่อระหว่าง GPU cluster สำหรับ workload ที่จำกัดด้วยแบนด์วิดท์หน่วยความจำ
Cerebras ให้บริการ inference ของ Llama 4 Maverick ที่ 2,500 โทเค็นต่อวินาทีต่อผู้ใช้—เร็วกว่าระบบ DGX B200 Blackwell ระดับเรือธงของ NVIDIA ที่รันโมเดล 400 พันล้านพารามิเตอร์เดียวกันมากกว่าสองเท่า¹ ช่องว่างด้านประสิทธิภาพนี้สะท้อนถึงความแตกต่างพื้นฐานของสถาปัตยกรรม: Cerebras สร้างโปรเซสเซอร์จากแผ่นซิลิคอนเวเฟอร์ทั้งแผ่นแทนที่จะตัดเวเฟอร์เป็นชิปแยกหลายร้อยชิ้น แนวทางนี้ขจัดปัญหาคอขวดของการเชื่อมต่อที่จำกัด GPU cluster โดยแลกกับเศรษฐศาสตร์การผลิตแบบทั่วไปเพื่อประสิทธิภาพดิบบน AI workload ที่จำกัดด้วยแบนด์วิดท์หน่วยความจำ
CS-3 ที่ขับเคลื่อนด้วย WSE-3 (Wafer-Scale Engine 3) ประกอบด้วยทรานซิสเตอร์ 4 ล้านล้านตัวกระจายอยู่บน AI-optimized cores 900,000 ตัว พร้อม SRAM บนชิป 44GB ที่ให้แบนด์วิดท์หน่วยความจำ 21 เพตาไบต์ต่อวินาที² เพื่อให้เห็นภาพ แบนด์วิดท์หน่วยความจำนี้มากกว่า H100 ถึง 7,000 เท่า องค์กรที่กำลังประเมินโครงสร้างพื้นฐาน AI กำลังเผชิญกับทางเลือกสถาปัตยกรรมที่แท้จริง: ขยายในแนวนอนด้วย GPU cluster และ overhead การสื่อสารที่หลีกเลี่ยงไม่ได้ หรือติดตั้งระบบ wafer-scale ที่สร้างขึ้นเฉพาะสำหรับข้อจำกัดแบนด์วิดท์หน่วยความจำที่ครอบงำประสิทธิภาพ LLM
แนวทาง wafer-scale
การผลิตชิปแบบดั้งเดิม
การผลิตเซมิคอนดักเตอร์มาตรฐานดำเนินตามรูปแบบที่เป็นที่ยอมรับ:³
- การผลิต: ประมวลผลแผ่นซิลิคอนเวเฟอร์ผ่านขั้นตอนหลายร้อยขั้นตอน
- การทดสอบ: ระบุพื้นที่ที่มีข้อบกพร่อง
- การตัด: ตัดเวเฟอร์เป็น die แยกหลายร้อยชิ้น
- การบรรจุ: ติดตั้ง die ที่ใช้งานได้ลงในแพ็คเกจพร้อมการเชื่อมต่อ
- การรวมระบบ: เชื่อมต่อแพ็คเกจหลายตัวสำหรับระบบ
แนวทางนี้ให้ชิปขนาดประมาณ 800 ตารางมิลลิเมตรเป็นอย่างมาก—ขีดจำกัดที่กำหนดโดยอุปกรณ์ลิโทกราฟีและเศรษฐศาสตร์ผลผลิต ชิปที่ใหญ่กว่าหมายถึงข้อบกพร่องต่อ die มากขึ้น ลดจำนวนหน่วยที่ใช้งานได้จากแต่ละเวเฟอร์
นวัตกรรมของ Cerebras
Cerebras พลิกสมการการผลิต:⁴
ชิปเวเฟอร์เดียว: แทนที่จะตัดเวเฟอร์เป็นชิปเล็กๆ Cerebras ใช้เวเฟอร์ 300 มม. เกือบทั้งหมด (46,225 ตร.มม.) เป็นโปรเซสเซอร์ตัวเดียว—ใหญ่กว่า die ของ GPU ทั่วไปประมาณ 50 เท่า
ความทนทานต่อข้อบกพร่อง: ปัญหาผลผลิตที่ป้องกันชิป wafer-scale แบบดั้งเดิมได้รับการแก้ไขผ่านนวัตกรรมสถาปัตยกรรม: - core แต่ละตัวลดลงเหลือ 0.05 ตร.มม. (1% ของขนาด H100 SM core) - core สำรองทดแทนตัวที่มีข้อบกพร่อง - fabric บนชิปกำหนดเส้นทางรอบความล้มเหลว - ปรับปรุงความทนทานต่อข้อบกพร่อง 100 เท่าเมื่อเทียบกับโปรเซสเซอร์ multi-core ทั่วไป
ทุกอย่างบนชิป: หน่วยความจำ การคำนวณ และการเชื่อมต่อทั้งหมดอยู่บนซิลิคอนเดียวกัน ขจัดข้อจำกัดแบนด์วิดท์ของหน่วยความจำภายนอกและการเชื่อมต่อระหว่างชิป
ข้อได้เปรียบทางสถาปัตยกรรม
แนวทาง wafer-scale ให้ประโยชน์เฉพาะ:⁵
แบนด์วิดท์หน่วยความจำ: - WSE-3: แบนด์วิดท์ SRAM บนชิป 21 PB/s - H100: แบนด์วิดท์ HBM 3 TB/s - อัตราส่วน: ได้เปรียบ 7,000 เท่า
แบนด์วิดท์การเชื่อมต่อ: - WSE-3: fabric บนเวเฟอร์ 214 Pb/s - H100 NVLink: 57.6 GB/s ต่อ GPU - อัตราส่วน: ได้เปรียบ 3,715 เท่า
ความจุหน่วยความจำ: - WSE-3: SRAM บนชิป 44 GB (ขยายได้ด้วย MemoryX ภายนอก) - H100: HBM3 80 GB
ประสิทธิภาพพลังงาน: - ความเรียบง่ายของอุปกรณ์เดียวขจัด overhead การประสานงานหลายชิป - ไม่มีตัวควบคุมหน่วยความจำภายนอก สวิตช์เชื่อมต่อ หรือ PCB traces - รายงานข้อได้เปรียบประสิทธิภาพพลังงานเหนือ GPU cluster สำหรับ workload เทียบเท่า
ข้อมูลจำเพาะ WSE-3 และ CS-3
สถาปัตยกรรม core
WSE-3 แสดงถึงเจเนอเรชันที่สามของเทคโนโลยี wafer-scale ของ Cerebras:⁶
ข้อมูลจำเพาะซิลิคอน: - Process node: TSMC 5nm - พื้นที่ Die: 46,225 ตร.มม. (21.5 ซม. × 21.5 ซม.) - จำนวนทรานซิสเตอร์: 4 ล้านล้าน - AI cores: 900,000 - ประสิทธิภาพสูงสุด: 125 PetaFLOPs (FP16)
ระบบหน่วยความจำ: - SRAM บนชิป: 44 GB - แบนด์วิดท์ SRAM: 21 PB/s - ขยายหน่วยความจำภายนอก: MemoryX (สูงสุด 1.5 PB ต่อระบบ) - แบนด์วิดท์หน่วยความจำไปยังภายนอก: การเชื่อมต่อแบนด์วิดท์สูงแบบเฉพาะ
การเชื่อมต่อ: - Fabric บนเวเฟอร์: แบนด์วิดท์รวม 214 Pb/s - การสื่อสาร core-to-core: ความหน่วงรอบสัญญาณนาฬิกาเดียว - ไม่มีการกำหนดเส้นทางนอกชิปสำหรับการสื่อสารภายในเวเฟอร์
ระบบ CS-3
CS-3 บรรจุ WSE-3 ในระบบที่พร้อมติดตั้ง:⁷
ข้อมูลจำเพาะทางกายภาพ: - รูปแบบ: หน่วย rack 15U - การใช้พลังงาน: ~23 kW - การระบายความร้อน: ระบบระบายความร้อนด้วยน้ำแบบเฉพาะ
ส่วนประกอบระบบ: - โปรเซสเซอร์ WSE-3 - หน่วยความจำภายนอก MemoryX (ตัวเลือก) - การเชื่อมต่อ cluster SwarmX (สำหรับการติดตั้ง CS-3 หลายเครื่อง) - ระบบจัดการและ I/O
การขยาย cluster: - Cluster สูงสุด: ระบบ CS-3 2,048 เครื่อง - การคำนวณ cluster: สูงสุด 256 ExaFLOPs (FP16) - ความจุโมเดล: สูงสุด 24 ล้านล้านพารามิเตอร์ - ความสามารถในการฝึก: Llama 2-70B ฝึกได้ในหนึ่งวันบน cluster ขนาดพอประมาณ
การเปรียบเทียบรุ่น
| ข้อมูลจำเพาะ | WSE-1 | WSE-2 | WSE-3 |
|---|---|---|---|
| Process node | 16nm | 7nm | 5nm |
| ทรานซิสเตอร์ | 1.2T | 2.6T | 4T |
| AI cores | 400,000 | 850,000 | 900,000 |
| หน่วยความจำบนชิป | 18 GB | 40 GB | 44 GB |
| แบนด์วิดท์หน่วยความจำ | 9 PB/s | 20 PB/s | 21 PB/s |
| FP16 สูงสุด | 47 PF | 75 PF | 125 PF |
ลักษณะประสิทธิภาพ
ความเร็ว inference
Cerebras แสดงให้เห็นข้อได้เปรียบ inference อย่างมาก:⁸
Llama 4 Maverick (400B พารามิเตอร์): - Cerebras: 2,500+ โทเค็น/วินาที/ผู้ใช้ - NVIDIA DGX B200: ~1,000 โทเค็น/วินาที/ผู้ใช้ - ข้อได้เปรียบ: >2.5 เท่า
โมเดล Llama 3.1: - Llama 3.1 8B: ความเร็ว inference ระดับสถิติโลก - Llama 3.1 70B: เร็วกว่าทางเลือก GPU หลายเท่า - Llama 3.1 405B: รองรับบน Cerebras cloud
ทำไม inference จึงเป็นเลิศ: การสร้างโทเค็น LLM ติดคอขวดที่แบนด์วิดท์หน่วยความจำ—แต่ละโทเค็นต้องโหลดน้ำหนักโมเดลจากหน่วยความจำไปยังการคำนวณ แบนด์วิดท์บนชิป 21 PB/s ของ Cerebras ขจัดกำแพงหน่วยความจำที่จำกัด GPU inference
ประสิทธิภาพการฝึก
ข้อได้เปรียบการฝึกเกิดจากการทำ distributed computing ที่ง่ายขึ้น:⁹
การลดความซับซ้อนของโค้ด: การฝึกโมเดล 175 พันล้านพารามิเตอร์บน GPU 4,000 ตัวโดยทั่วไปต้องใช้โค้ด distributed training ประมาณ 20,000 บรรทัด Cerebras ทำการฝึกเทียบเท่าด้วย 565 บรรทัด—โมเดลทั้งหมดอยู่บนเวเฟอร์โดยไม่ต้องมีความซับซ้อนของ data parallelism
การขจัดการสื่อสาร: ประสิทธิภาพการฝึก GPU ลดลงเมื่อขนาด cluster เพิ่มขึ้นเนื่องจาก overhead การซิงโครไนซ์ gradient Cerebras ขจัด overhead นี้สำหรับโมเดลที่อยู่บนชิป รักษาการขยายเชิงเส้นสำหรับ workload ที่เหมาะสม
เกณฑ์มาตรฐาน time-to-train: - Llama 2-70B: ฝึกได้ในหนึ่งวันบน CS-3 cluster - โมเดลถึง 24 ล้านล้านพารามิเตอร์: รองรับโดยไม่ต้องมีเทคนิค software distribution
การคำนวณทางวิทยาศาสตร์
นอกเหนือจาก LLM Cerebras แสดงให้เห็นข้อได้เปรียบในการจำลองทางวิทยาศาสตร์:¹⁰
Molecular dynamics: Cerebras บรรลุการจำลอง molecular dynamics ระยะยาวเร็วกว่าซูเปอร์คอมพิวเตอร์อันดับ 1 ของโลก (Frontier) ถึง 179 เท่า รูปแบบการเข้าถึงหน่วยความจำของ workload สอดคล้องกับสถาปัตยกรรม wafer-scale เป็นอย่างดี
การค้นพบยา: Mayo Clinic ติดตั้งโมเดลทำนายการตอบสนองของยามะเร็งที่รัน "เร็วกว่าหลายร้อยเท่า" บน Cerebras เมื่อเทียบกับ GPU ทั่วไป
Genomics: Mayo Genomic Foundation Model สร้างขึ้นเฉพาะบนโครงสร้างพื้นฐาน Cerebras สำหรับการวิเคราะห์จีโนมในระดับใหญ่
การเปรียบเทียบ Cerebras กับ NVIDIA
ที่ Cerebras เป็นเลิศ
Workload ที่จำกัดด้วยแบนด์วิดท์หน่วยความจำ:¹¹ - LLM inference (โดยเฉพาะโมเดลขนาดใหญ่) - การฝึกโมเดลที่อยู่บนชิปได้ - การจำลองทางวิทยาศาสตร์ที่มีการเข้าถึงหน่วยความจำแบบ streaming - Real-time inference ที่ต้องการความหน่วงต่ำสม่ำเสมอ
การติดตั้งที่ง่ายขึ้น: - การฝึกอุปกรณ์เดียวสำหรับโมเดลขนาดกลาง (ไม่ต้องมีโค้ด distributed training) - ประสิทธิภาพที่คาดการณ์ได้ (ไม่มีความแปรปรวนการประสานงานหลายชิป) - ความซับซ้อนโครงสร้างพื้นฐานลดลง (ไม่ต้อง InfiniBand fabric สำหรับการติดตั้งขนาดเล็ก)
ประสิทธิภาพต้นทุน (ที่อ้างสิทธิ์): - Inference เร็วกว่า 21 เท่าด้วย 1/3 ของต้นทุน DGX B200 - $0.10/ล้านโทเค็น (Llama 3.1 8B) - $0.60/ล้านโทเค็น (Llama 3.1 70B)
ที่ NVIDIA เป็นเลิศ
ความกว้างของระบบนิเวศ:¹² - โมเดลการเขียนโปรแกรม CUDA ครองอุตสาหกรรม - การสนับสนุน software framework กว้างที่สุด - ชุมชนนักพัฒนาใหญ่ที่สุด - ไลบรารีการเพิ่มประสิทธิภาพโมเดลครอบคลุมที่สุด
ความยืดหยุ่นของ workload: - การฝึกและ inference บนฮาร์ดแวร์เดียวกัน - การสนับสนุนสถาปัตยกรรมโมเดลกว้าง - การพัฒนา custom operation ผ่าน CUDA - รูปแบบการติดตั้ง enterprise ที่เป็นที่ยอมรับ
ความเป็นผู้ใหญ่ของห่วงโซ่อุปทาน: - OEM system integrators หลายราย - โครงสร้างพื้นฐานสนับสนุนทั่วโลก - เส้นทางการจัดซื้อ enterprise ที่พิสูจน์แล้ว - ตลาดรองสำหรับอุปกรณ์ใช้แล้ว
Fine-tuning และการปรับแต่ง: - LoRA, QLoRA, full fine-tuning รองรับดี - ระบบนิเวศเครื่องมือครอบคลุม - workflow การ fine-tuning ระดับ enterprise ที่เป็นที่ยอมรับ
เมทริกซ์การตัดสินใจ
| ปัจจัย | เลือก Cerebras | เลือก NVIDIA |
|---|---|---|
| Workload หลัก | เน้น inference | เน้นการฝึก |
| ขนาดโมเดล | ใหญ่ (70B+) | ทุกขนาด |
| ความต้องการความหน่วง | ต่ำมาก สม่ำเสมอ | ปานกลาง |
| ความเชี่ยวชาญของทีม | โครงสร้างพื้นฐาน ML จำกัด | CUDA/distributed แข็งแกร่ง |
| ความต้องการการปรับแต่ง | โมเดลมาตรฐาน | สถาปัตยกรรมที่กำหนดเอง |
| การลงทุนที่มีอยู่ | Greenfield | มีโครงสร้างพื้นฐาน GPU อยู่แล้ว |
| ความทนต่อความเสี่ยง | สูงกว่า (ระบบนิเวศใหม่กว่า) | ต่ำกว่า (พิสูจน์แล้ว) |
ตัวเลือกการติดตั้ง
Cerebras Cloud
บริการ inference ที่จัดการแล้วสำหรับการเข้าถึงทันที:¹³
ราคา (ธันวาคม 2025): - Llama 3.1 8B: $0.10/ล้านโทเค็น - Llama 3.1 70B: $0.60/ล้านโทเค็น - Llama 3.1 405B: พร้อมให้บริการ - Llama 4 Scout/Maverick: รองรับ
คุณสมบัติ: - API ที่เข้ากันได้กับ OpenAI - Web playground สำหรับทดสอบ - ระดับการสนับสนุน enterprise - SOC 2 compliance
กรณีการใช้งาน: - Production inference ที่ต้องการความเร็ว - การประเมินก่อนลงทุน on-premises - Workload แปรผันโดยไม่ต้องผูกพันเงินทุน
การติดตั้ง on-premises
ระบบ CS-3 สำหรับโครงสร้างพื้นฐานส่วนตัว:¹⁴
ข้อพิจารณา: - การลงทุนเงินทุนจำนวนมาก - ความต้องการการระบายความร้อนเฉพาะ - การติดตั้งและสนับสนุนเฉพาะทาง - ตลาดรองจำกัด (ไม่เหมือน GPU)
เหมาะที่สุดสำหรับ: - ความต้องการอธิปไตยข้อมูล - การใช้งานสูงอย่างต่อเนื่อง - ความต้องการการรวมระบบที่กำหนดเอง - ความแตกต่างเชิงกลยุทธ์จาก cloud
โครงสร้างพื้นฐานเฉพาะ
Cerebras ดำเนินการศูนย์ข้อมูลเฉพาะ:¹⁵
สถานที่ (2025): - Oklahoma City, USA (ระบบ CS-3 300+ เครื่อง) - Montreal, Canada (เปิดดำเนินการกรกฎาคม 2025) - Dallas, USA - Reno, USA - Ireland - Gelderland, Netherlands
ความจุ: - ความจุรวม 40+ ล้านโทเค็นต่อวินาที - ขยายความจุ 20 เท่าในปี 2025 - ความร่วมมือกับ G42 สำหรับสิ่งอำนวยความสะดวกเพิ่มเติม
ตัวเลือกผู้เช่าเฉพาะ: - การจัดสรรความจุที่รับประกัน - ข้อตกลง SLA ที่กำหนดเอง - การสนับสนุนการรวมระบบ enterprise
การติดตั้งของลูกค้า
การนำไปใช้ระดับ enterprise
องค์กรใหญ่ที่ติดตั้ง Cerebras:¹⁶
เทคโนโลยี: - Meta: ความร่วมมือขับเคลื่อน Llama API - Mistral: ผู้ช่วย AI Le Chat - Perplexity: เครื่องมือค้นหา AI - IBM: แอปพลิเคชัน AI ระดับ enterprise
การดูแลสุขภาพ: - Mayo Clinic: Genomic Foundation Model - GlaxoSmithKline: การค้นพบยา - โมเดลทำนายการตอบสนองของยามะเร็ง
รัฐบาล: - US Department of Energy - US Department of Defense - โปรแกรม DARPA MAPLE (สัญญา $45M สำหรับการจำลองสนามรบหลายโดเมน)
โครงการ Sovereign AI
โปรแกรม Cerebras for Nations สนับสนุนโครงสร้างพื้นฐาน AI ของรัฐบาล:¹⁷
การมีส่วนร่วมปัจจุบัน: - United States - United Kingdom - United Arab Emirates (ความร่วมมือ G42)
เป้าหมายการขยาย: - India - Europe (หลายประเทศ) - Middle East - Asia-Pacific - Latin America
ข้อเสนอคุณค่า: - โครงสร้างพื้นฐาน AI ในประเทศ - การปฏิบัติตามอธิปไตยข้อมูล - การพัฒนาขีดความสามารถระดับชาติ - ลดการพึ่งพา cloud ต่างประเทศ
ข้อพิจารณาโครงสร้างพื้นฐาน
พลังงานและการระบายความร้อน
ระบบ Cerebras ต้องการโครงสร้างพื้นฐานเฉพาะ:¹⁸
ความต้องการพลังงาน: - CS-3: ~23 kW ต่อ
[เนื้อหาถูกตัดสำหรับการแปล]