Cerebras Wafer-Scale Engine: เมื่อไหร่ควรเลือกสถาปัตยกรรม AI ทางเลือก

CS-3 พร้อม WSE-3 ให้บริการ Llama 4 Maverick ที่ 2,500 โทเค็น/วินาทีต่อผู้ใช้—เร็วกว่า DGX B200 Blackwell มากกว่า 2 เท่า WSE-3 ประกอบด้วยทรานซิสเตอร์ 4 ล้านล้านตัว, AI cores 900,000 ตัว, SRAM บนชิป 44GB พร้อมแบนด์วิดท์หน่วยความจำ 21 PB/s...

Cerebras Wafer-Scale Engine: เมื่อไหร่ควรเลือกสถาปัตยกรรม AI ทางเลือก

Cerebras Wafer-Scale Engine: เมื่อไหร่ควรเลือกสถาปัตยกรรม AI ทางเลือก

อัปเดต 11 ธันวาคม 2025

อัปเดตธันวาคม 2025: CS-3 พร้อม WSE-3 ให้บริการ Llama 4 Maverick ที่ 2,500 โทเค็น/วินาทีต่อผู้ใช้—เร็วกว่า DGX B200 Blackwell มากกว่า 2 เท่า WSE-3 ประกอบด้วยทรานซิสเตอร์ 4 ล้านล้านตัว, AI cores 900,000 ตัว, SRAM บนชิป 44GB พร้อมแบนด์วิดท์หน่วยความจำ 21 PB/s (มากกว่า H100 ถึง 7,000 เท่า) สถาปัตยกรรม wafer-scale ขจัดปัญหาคอขวดของการเชื่อมต่อระหว่าง GPU cluster สำหรับ workload ที่จำกัดด้วยแบนด์วิดท์หน่วยความจำ

Cerebras ให้บริการ inference ของ Llama 4 Maverick ที่ 2,500 โทเค็นต่อวินาทีต่อผู้ใช้—เร็วกว่าระบบ DGX B200 Blackwell ระดับเรือธงของ NVIDIA ที่รันโมเดล 400 พันล้านพารามิเตอร์เดียวกันมากกว่าสองเท่า¹ ช่องว่างด้านประสิทธิภาพนี้สะท้อนถึงความแตกต่างพื้นฐานของสถาปัตยกรรม: Cerebras สร้างโปรเซสเซอร์จากแผ่นซิลิคอนเวเฟอร์ทั้งแผ่นแทนที่จะตัดเวเฟอร์เป็นชิปแยกหลายร้อยชิ้น แนวทางนี้ขจัดปัญหาคอขวดของการเชื่อมต่อที่จำกัด GPU cluster โดยแลกกับเศรษฐศาสตร์การผลิตแบบทั่วไปเพื่อประสิทธิภาพดิบบน AI workload ที่จำกัดด้วยแบนด์วิดท์หน่วยความจำ

CS-3 ที่ขับเคลื่อนด้วย WSE-3 (Wafer-Scale Engine 3) ประกอบด้วยทรานซิสเตอร์ 4 ล้านล้านตัวกระจายอยู่บน AI-optimized cores 900,000 ตัว พร้อม SRAM บนชิป 44GB ที่ให้แบนด์วิดท์หน่วยความจำ 21 เพตาไบต์ต่อวินาที² เพื่อให้เห็นภาพ แบนด์วิดท์หน่วยความจำนี้มากกว่า H100 ถึง 7,000 เท่า องค์กรที่กำลังประเมินโครงสร้างพื้นฐาน AI กำลังเผชิญกับทางเลือกสถาปัตยกรรมที่แท้จริง: ขยายในแนวนอนด้วย GPU cluster และ overhead การสื่อสารที่หลีกเลี่ยงไม่ได้ หรือติดตั้งระบบ wafer-scale ที่สร้างขึ้นเฉพาะสำหรับข้อจำกัดแบนด์วิดท์หน่วยความจำที่ครอบงำประสิทธิภาพ LLM

แนวทาง wafer-scale

การผลิตชิปแบบดั้งเดิม

การผลิตเซมิคอนดักเตอร์มาตรฐานดำเนินตามรูปแบบที่เป็นที่ยอมรับ:³

  1. การผลิต: ประมวลผลแผ่นซิลิคอนเวเฟอร์ผ่านขั้นตอนหลายร้อยขั้นตอน
  2. การทดสอบ: ระบุพื้นที่ที่มีข้อบกพร่อง
  3. การตัด: ตัดเวเฟอร์เป็น die แยกหลายร้อยชิ้น
  4. การบรรจุ: ติดตั้ง die ที่ใช้งานได้ลงในแพ็คเกจพร้อมการเชื่อมต่อ
  5. การรวมระบบ: เชื่อมต่อแพ็คเกจหลายตัวสำหรับระบบ

แนวทางนี้ให้ชิปขนาดประมาณ 800 ตารางมิลลิเมตรเป็นอย่างมาก—ขีดจำกัดที่กำหนดโดยอุปกรณ์ลิโทกราฟีและเศรษฐศาสตร์ผลผลิต ชิปที่ใหญ่กว่าหมายถึงข้อบกพร่องต่อ die มากขึ้น ลดจำนวนหน่วยที่ใช้งานได้จากแต่ละเวเฟอร์

นวัตกรรมของ Cerebras

Cerebras พลิกสมการการผลิต:⁴

ชิปเวเฟอร์เดียว: แทนที่จะตัดเวเฟอร์เป็นชิปเล็กๆ Cerebras ใช้เวเฟอร์ 300 มม. เกือบทั้งหมด (46,225 ตร.มม.) เป็นโปรเซสเซอร์ตัวเดียว—ใหญ่กว่า die ของ GPU ทั่วไปประมาณ 50 เท่า

ความทนทานต่อข้อบกพร่อง: ปัญหาผลผลิตที่ป้องกันชิป wafer-scale แบบดั้งเดิมได้รับการแก้ไขผ่านนวัตกรรมสถาปัตยกรรม: - core แต่ละตัวลดลงเหลือ 0.05 ตร.มม. (1% ของขนาด H100 SM core) - core สำรองทดแทนตัวที่มีข้อบกพร่อง - fabric บนชิปกำหนดเส้นทางรอบความล้มเหลว - ปรับปรุงความทนทานต่อข้อบกพร่อง 100 เท่าเมื่อเทียบกับโปรเซสเซอร์ multi-core ทั่วไป

ทุกอย่างบนชิป: หน่วยความจำ การคำนวณ และการเชื่อมต่อทั้งหมดอยู่บนซิลิคอนเดียวกัน ขจัดข้อจำกัดแบนด์วิดท์ของหน่วยความจำภายนอกและการเชื่อมต่อระหว่างชิป

ข้อได้เปรียบทางสถาปัตยกรรม

แนวทาง wafer-scale ให้ประโยชน์เฉพาะ:⁵

แบนด์วิดท์หน่วยความจำ: - WSE-3: แบนด์วิดท์ SRAM บนชิป 21 PB/s - H100: แบนด์วิดท์ HBM 3 TB/s - อัตราส่วน: ได้เปรียบ 7,000 เท่า

แบนด์วิดท์การเชื่อมต่อ: - WSE-3: fabric บนเวเฟอร์ 214 Pb/s - H100 NVLink: 57.6 GB/s ต่อ GPU - อัตราส่วน: ได้เปรียบ 3,715 เท่า

ความจุหน่วยความจำ: - WSE-3: SRAM บนชิป 44 GB (ขยายได้ด้วย MemoryX ภายนอก) - H100: HBM3 80 GB

ประสิทธิภาพพลังงาน: - ความเรียบง่ายของอุปกรณ์เดียวขจัด overhead การประสานงานหลายชิป - ไม่มีตัวควบคุมหน่วยความจำภายนอก สวิตช์เชื่อมต่อ หรือ PCB traces - รายงานข้อได้เปรียบประสิทธิภาพพลังงานเหนือ GPU cluster สำหรับ workload เทียบเท่า

ข้อมูลจำเพาะ WSE-3 และ CS-3

สถาปัตยกรรม core

WSE-3 แสดงถึงเจเนอเรชันที่สามของเทคโนโลยี wafer-scale ของ Cerebras:⁶

ข้อมูลจำเพาะซิลิคอน: - Process node: TSMC 5nm - พื้นที่ Die: 46,225 ตร.มม. (21.5 ซม. × 21.5 ซม.) - จำนวนทรานซิสเตอร์: 4 ล้านล้าน - AI cores: 900,000 - ประสิทธิภาพสูงสุด: 125 PetaFLOPs (FP16)

ระบบหน่วยความจำ: - SRAM บนชิป: 44 GB - แบนด์วิดท์ SRAM: 21 PB/s - ขยายหน่วยความจำภายนอก: MemoryX (สูงสุด 1.5 PB ต่อระบบ) - แบนด์วิดท์หน่วยความจำไปยังภายนอก: การเชื่อมต่อแบนด์วิดท์สูงแบบเฉพาะ

การเชื่อมต่อ: - Fabric บนเวเฟอร์: แบนด์วิดท์รวม 214 Pb/s - การสื่อสาร core-to-core: ความหน่วงรอบสัญญาณนาฬิกาเดียว - ไม่มีการกำหนดเส้นทางนอกชิปสำหรับการสื่อสารภายในเวเฟอร์

ระบบ CS-3

CS-3 บรรจุ WSE-3 ในระบบที่พร้อมติดตั้ง:⁷

ข้อมูลจำเพาะทางกายภาพ: - รูปแบบ: หน่วย rack 15U - การใช้พลังงาน: ~23 kW - การระบายความร้อน: ระบบระบายความร้อนด้วยน้ำแบบเฉพาะ

ส่วนประกอบระบบ: - โปรเซสเซอร์ WSE-3 - หน่วยความจำภายนอก MemoryX (ตัวเลือก) - การเชื่อมต่อ cluster SwarmX (สำหรับการติดตั้ง CS-3 หลายเครื่อง) - ระบบจัดการและ I/O

การขยาย cluster: - Cluster สูงสุด: ระบบ CS-3 2,048 เครื่อง - การคำนวณ cluster: สูงสุด 256 ExaFLOPs (FP16) - ความจุโมเดล: สูงสุด 24 ล้านล้านพารามิเตอร์ - ความสามารถในการฝึก: Llama 2-70B ฝึกได้ในหนึ่งวันบน cluster ขนาดพอประมาณ

การเปรียบเทียบรุ่น

ข้อมูลจำเพาะ WSE-1 WSE-2 WSE-3
Process node 16nm 7nm 5nm
ทรานซิสเตอร์ 1.2T 2.6T 4T
AI cores 400,000 850,000 900,000
หน่วยความจำบนชิป 18 GB 40 GB 44 GB
แบนด์วิดท์หน่วยความจำ 9 PB/s 20 PB/s 21 PB/s
FP16 สูงสุด 47 PF 75 PF 125 PF

ลักษณะประสิทธิภาพ

ความเร็ว inference

Cerebras แสดงให้เห็นข้อได้เปรียบ inference อย่างมาก:⁸

Llama 4 Maverick (400B พารามิเตอร์): - Cerebras: 2,500+ โทเค็น/วินาที/ผู้ใช้ - NVIDIA DGX B200: ~1,000 โทเค็น/วินาที/ผู้ใช้ - ข้อได้เปรียบ: >2.5 เท่า

โมเดล Llama 3.1: - Llama 3.1 8B: ความเร็ว inference ระดับสถิติโลก - Llama 3.1 70B: เร็วกว่าทางเลือก GPU หลายเท่า - Llama 3.1 405B: รองรับบน Cerebras cloud

ทำไม inference จึงเป็นเลิศ: การสร้างโทเค็น LLM ติดคอขวดที่แบนด์วิดท์หน่วยความจำ—แต่ละโทเค็นต้องโหลดน้ำหนักโมเดลจากหน่วยความจำไปยังการคำนวณ แบนด์วิดท์บนชิป 21 PB/s ของ Cerebras ขจัดกำแพงหน่วยความจำที่จำกัด GPU inference

ประสิทธิภาพการฝึก

ข้อได้เปรียบการฝึกเกิดจากการทำ distributed computing ที่ง่ายขึ้น:⁹

การลดความซับซ้อนของโค้ด: การฝึกโมเดล 175 พันล้านพารามิเตอร์บน GPU 4,000 ตัวโดยทั่วไปต้องใช้โค้ด distributed training ประมาณ 20,000 บรรทัด Cerebras ทำการฝึกเทียบเท่าด้วย 565 บรรทัด—โมเดลทั้งหมดอยู่บนเวเฟอร์โดยไม่ต้องมีความซับซ้อนของ data parallelism

การขจัดการสื่อสาร: ประสิทธิภาพการฝึก GPU ลดลงเมื่อขนาด cluster เพิ่มขึ้นเนื่องจาก overhead การซิงโครไนซ์ gradient Cerebras ขจัด overhead นี้สำหรับโมเดลที่อยู่บนชิป รักษาการขยายเชิงเส้นสำหรับ workload ที่เหมาะสม

เกณฑ์มาตรฐาน time-to-train: - Llama 2-70B: ฝึกได้ในหนึ่งวันบน CS-3 cluster - โมเดลถึง 24 ล้านล้านพารามิเตอร์: รองรับโดยไม่ต้องมีเทคนิค software distribution

การคำนวณทางวิทยาศาสตร์

นอกเหนือจาก LLM Cerebras แสดงให้เห็นข้อได้เปรียบในการจำลองทางวิทยาศาสตร์:¹⁰

Molecular dynamics: Cerebras บรรลุการจำลอง molecular dynamics ระยะยาวเร็วกว่าซูเปอร์คอมพิวเตอร์อันดับ 1 ของโลก (Frontier) ถึง 179 เท่า รูปแบบการเข้าถึงหน่วยความจำของ workload สอดคล้องกับสถาปัตยกรรม wafer-scale เป็นอย่างดี

การค้นพบยา: Mayo Clinic ติดตั้งโมเดลทำนายการตอบสนองของยามะเร็งที่รัน "เร็วกว่าหลายร้อยเท่า" บน Cerebras เมื่อเทียบกับ GPU ทั่วไป

Genomics: Mayo Genomic Foundation Model สร้างขึ้นเฉพาะบนโครงสร้างพื้นฐาน Cerebras สำหรับการวิเคราะห์จีโนมในระดับใหญ่

การเปรียบเทียบ Cerebras กับ NVIDIA

ที่ Cerebras เป็นเลิศ

Workload ที่จำกัดด้วยแบนด์วิดท์หน่วยความจำ:¹¹ - LLM inference (โดยเฉพาะโมเดลขนาดใหญ่) - การฝึกโมเดลที่อยู่บนชิปได้ - การจำลองทางวิทยาศาสตร์ที่มีการเข้าถึงหน่วยความจำแบบ streaming - Real-time inference ที่ต้องการความหน่วงต่ำสม่ำเสมอ

การติดตั้งที่ง่ายขึ้น: - การฝึกอุปกรณ์เดียวสำหรับโมเดลขนาดกลาง (ไม่ต้องมีโค้ด distributed training) - ประสิทธิภาพที่คาดการณ์ได้ (ไม่มีความแปรปรวนการประสานงานหลายชิป) - ความซับซ้อนโครงสร้างพื้นฐานลดลง (ไม่ต้อง InfiniBand fabric สำหรับการติดตั้งขนาดเล็ก)

ประสิทธิภาพต้นทุน (ที่อ้างสิทธิ์): - Inference เร็วกว่า 21 เท่าด้วย 1/3 ของต้นทุน DGX B200 - $0.10/ล้านโทเค็น (Llama 3.1 8B) - $0.60/ล้านโทเค็น (Llama 3.1 70B)

ที่ NVIDIA เป็นเลิศ

ความกว้างของระบบนิเวศ:¹² - โมเดลการเขียนโปรแกรม CUDA ครองอุตสาหกรรม - การสนับสนุน software framework กว้างที่สุด - ชุมชนนักพัฒนาใหญ่ที่สุด - ไลบรารีการเพิ่มประสิทธิภาพโมเดลครอบคลุมที่สุด

ความยืดหยุ่นของ workload: - การฝึกและ inference บนฮาร์ดแวร์เดียวกัน - การสนับสนุนสถาปัตยกรรมโมเดลกว้าง - การพัฒนา custom operation ผ่าน CUDA - รูปแบบการติดตั้ง enterprise ที่เป็นที่ยอมรับ

ความเป็นผู้ใหญ่ของห่วงโซ่อุปทาน: - OEM system integrators หลายราย - โครงสร้างพื้นฐานสนับสนุนทั่วโลก - เส้นทางการจัดซื้อ enterprise ที่พิสูจน์แล้ว - ตลาดรองสำหรับอุปกรณ์ใช้แล้ว

Fine-tuning และการปรับแต่ง: - LoRA, QLoRA, full fine-tuning รองรับดี - ระบบนิเวศเครื่องมือครอบคลุม - workflow การ fine-tuning ระดับ enterprise ที่เป็นที่ยอมรับ

เมทริกซ์การตัดสินใจ

ปัจจัย เลือก Cerebras เลือก NVIDIA
Workload หลัก เน้น inference เน้นการฝึก
ขนาดโมเดล ใหญ่ (70B+) ทุกขนาด
ความต้องการความหน่วง ต่ำมาก สม่ำเสมอ ปานกลาง
ความเชี่ยวชาญของทีม โครงสร้างพื้นฐาน ML จำกัด CUDA/distributed แข็งแกร่ง
ความต้องการการปรับแต่ง โมเดลมาตรฐาน สถาปัตยกรรมที่กำหนดเอง
การลงทุนที่มีอยู่ Greenfield มีโครงสร้างพื้นฐาน GPU อยู่แล้ว
ความทนต่อความเสี่ยง สูงกว่า (ระบบนิเวศใหม่กว่า) ต่ำกว่า (พิสูจน์แล้ว)

ตัวเลือกการติดตั้ง

Cerebras Cloud

บริการ inference ที่จัดการแล้วสำหรับการเข้าถึงทันที:¹³

ราคา (ธันวาคม 2025): - Llama 3.1 8B: $0.10/ล้านโทเค็น - Llama 3.1 70B: $0.60/ล้านโทเค็น - Llama 3.1 405B: พร้อมให้บริการ - Llama 4 Scout/Maverick: รองรับ

คุณสมบัติ: - API ที่เข้ากันได้กับ OpenAI - Web playground สำหรับทดสอบ - ระดับการสนับสนุน enterprise - SOC 2 compliance

กรณีการใช้งาน: - Production inference ที่ต้องการความเร็ว - การประเมินก่อนลงทุน on-premises - Workload แปรผันโดยไม่ต้องผูกพันเงินทุน

การติดตั้ง on-premises

ระบบ CS-3 สำหรับโครงสร้างพื้นฐานส่วนตัว:¹⁴

ข้อพิจารณา: - การลงทุนเงินทุนจำนวนมาก - ความต้องการการระบายความร้อนเฉพาะ - การติดตั้งและสนับสนุนเฉพาะทาง - ตลาดรองจำกัด (ไม่เหมือน GPU)

เหมาะที่สุดสำหรับ: - ความต้องการอธิปไตยข้อมูล - การใช้งานสูงอย่างต่อเนื่อง - ความต้องการการรวมระบบที่กำหนดเอง - ความแตกต่างเชิงกลยุทธ์จาก cloud

โครงสร้างพื้นฐานเฉพาะ

Cerebras ดำเนินการศูนย์ข้อมูลเฉพาะ:¹⁵

สถานที่ (2025): - Oklahoma City, USA (ระบบ CS-3 300+ เครื่อง) - Montreal, Canada (เปิดดำเนินการกรกฎาคม 2025) - Dallas, USA - Reno, USA - Ireland - Gelderland, Netherlands

ความจุ: - ความจุรวม 40+ ล้านโทเค็นต่อวินาที - ขยายความจุ 20 เท่าในปี 2025 - ความร่วมมือกับ G42 สำหรับสิ่งอำนวยความสะดวกเพิ่มเติม

ตัวเลือกผู้เช่าเฉพาะ: - การจัดสรรความจุที่รับประกัน - ข้อตกลง SLA ที่กำหนดเอง - การสนับสนุนการรวมระบบ enterprise

การติดตั้งของลูกค้า

การนำไปใช้ระดับ enterprise

องค์กรใหญ่ที่ติดตั้ง Cerebras:¹⁶

เทคโนโลยี: - Meta: ความร่วมมือขับเคลื่อน Llama API - Mistral: ผู้ช่วย AI Le Chat - Perplexity: เครื่องมือค้นหา AI - IBM: แอปพลิเคชัน AI ระดับ enterprise

การดูแลสุขภาพ: - Mayo Clinic: Genomic Foundation Model - GlaxoSmithKline: การค้นพบยา - โมเดลทำนายการตอบสนองของยามะเร็ง

รัฐบาล: - US Department of Energy - US Department of Defense - โปรแกรม DARPA MAPLE (สัญญา $45M สำหรับการจำลองสนามรบหลายโดเมน)

โครงการ Sovereign AI

โปรแกรม Cerebras for Nations สนับสนุนโครงสร้างพื้นฐาน AI ของรัฐบาล:¹⁷

การมีส่วนร่วมปัจจุบัน: - United States - United Kingdom - United Arab Emirates (ความร่วมมือ G42)

เป้าหมายการขยาย: - India - Europe (หลายประเทศ) - Middle East - Asia-Pacific - Latin America

ข้อเสนอคุณค่า: - โครงสร้างพื้นฐาน AI ในประเทศ - การปฏิบัติตามอธิปไตยข้อมูล - การพัฒนาขีดความสามารถระดับชาติ - ลดการพึ่งพา cloud ต่างประเทศ

ข้อพิจารณาโครงสร้างพื้นฐาน

พลังงานและการระบายความร้อน

ระบบ Cerebras ต้องการโครงสร้างพื้นฐานเฉพาะ:¹⁸

ความต้องการพลังงาน: - CS-3: ~23 kW ต่อ

[เนื้อหาถูกตัดสำหรับการแปล]

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING