Cerebras Wafer-Scale Engine: Khi Nào Nên Chọn Kiến Trúc AI Thay Thế
Cập nhật ngày 11 tháng 12, 2025
Cập nhật tháng 12/2025: CS-3 với WSE-3 cung cấp Llama 4 Maverick ở tốc độ 2.500 token/giây cho mỗi người dùng—nhanh hơn 2 lần so với DGX B200 Blackwell. WSE-3 chứa 4 nghìn tỷ transistor, 900.000 lõi AI, 44GB SRAM trên chip với băng thông bộ nhớ 21 PB/s (gấp 7.000 lần H100). Kiến trúc wafer-scale loại bỏ các điểm nghẽn kết nối cụm GPU cho các khối lượng công việc bị giới hạn bởi băng thông bộ nhớ.
Cerebras đạt được tốc độ suy luận Llama 4 Maverick ở mức 2.500 token mỗi giây cho mỗi người dùng—nhanh hơn gấp đôi so với hệ thống DGX B200 Blackwell hàng đầu của NVIDIA chạy cùng mô hình 400 tỷ tham số.¹ Khoảng cách hiệu suất này phản ánh sự khác biệt kiến trúc căn bản: Cerebras chế tạo bộ xử lý từ toàn bộ tấm wafer silicon thay vì cắt wafer thành hàng trăm chip riêng lẻ. Phương pháp này loại bỏ các điểm nghẽn kết nối ràng buộc cụm GPU, đánh đổi kinh tế sản xuất truyền thống để lấy hiệu suất thô cho các khối lượng công việc AI bị giới hạn bởi băng thông bộ nhớ.
CS-3, được cung cấp năng lượng bởi WSE-3 (Wafer-Scale Engine 3), chứa 4 nghìn tỷ transistor trên 900.000 lõi được tối ưu hóa cho AI với 44GB SRAM trên chip cung cấp băng thông bộ nhớ 21 petabyte mỗi giây.² Để so sánh, băng thông bộ nhớ đó vượt H100 7.000 lần. Các tổ chức đánh giá cơ sở hạ tầng AI đối mặt với một lựa chọn kiến trúc thực sự: mở rộng theo chiều ngang với cụm GPU và chi phí giao tiếp vốn có của chúng, hoặc triển khai hệ thống wafer-scale được xây dựng riêng cho các ràng buộc băng thông bộ nhớ chi phối hiệu suất LLM.
Phương pháp wafer-scale
Sản xuất chip truyền thống
Sản xuất bán dẫn tiêu chuẩn tuân theo một mô hình đã được thiết lập:³
- Chế tạo: Xử lý tấm wafer silicon qua hàng trăm bước
- Kiểm tra: Xác định các vùng bị lỗi
- Cắt: Cắt wafer thành hàng trăm die riêng lẻ
- Đóng gói: Gắn các die hoạt động tốt vào các gói với các kết nối
- Tích hợp: Kết nối nhiều gói cho hệ thống
Phương pháp này tạo ra chip tối đa khoảng 800 milimet vuông—một giới hạn được áp đặt bởi thiết bị quang khắc và kinh tế hiệu suất. Chip lớn hơn có nghĩa là nhiều lỗi hơn trên mỗi die, giảm số lượng đơn vị hoạt động từ mỗi wafer.
Đổi mới của Cerebras
Cerebras đảo ngược phương trình sản xuất:⁴
Wafer chip đơn: Thay vì cắt wafer thành các chip nhỏ, Cerebras sử dụng gần như toàn bộ wafer 300mm (46.225 mm²) như một bộ xử lý—lớn hơn khoảng 50 lần so với die GPU thông thường.
Khả năng chịu lỗi: Vấn đề hiệu suất ngăn cản chip wafer-scale truyền thống đã được giải quyết thông qua đổi mới kiến trúc: - Các lõi riêng lẻ được thu nhỏ xuống 0,05mm² (1% kích thước lõi SM của H100) - Các lõi dự phòng thay thế các lõi bị lỗi - Fabric trên chip định tuyến xung quanh các lỗi - Cải thiện 100 lần khả năng chịu lỗi so với bộ xử lý đa lõi thông thường
Mọi thứ trên chip: Bộ nhớ, tính toán và kết nối đều nằm trên cùng một silicon, loại bỏ các giới hạn băng thông của bộ nhớ ngoài và kết nối chip-với-chip.
Ưu điểm kiến trúc
Phương pháp wafer-scale mang lại các lợi ích cụ thể:⁵
Băng thông bộ nhớ: - WSE-3: 21 PB/s băng thông SRAM trên chip - H100: 3 TB/s băng thông HBM - Tỷ lệ: lợi thế 7.000 lần
Băng thông kết nối: - WSE-3: 214 Pb/s fabric trên wafer - H100 NVLink: 57,6 GB/s mỗi GPU - Tỷ lệ: lợi thế 3.715 lần
Dung lượng bộ nhớ: - WSE-3: 44 GB SRAM trên chip (có thể mở rộng với MemoryX bên ngoài) - H100: 80 GB HBM3
Hiệu quả năng lượng: - Đơn giản thiết bị đơn loại bỏ chi phí phối hợp đa chip - Không có bộ điều khiển bộ nhớ ngoài, switch kết nối, hoặc đường dẫn PCB - Báo cáo lợi thế hiệu quả năng lượng so với cụm GPU cho khối lượng công việc tương đương
Thông số kỹ thuật WSE-3 và CS-3
Kiến trúc lõi
WSE-3 đại diện cho thế hệ thứ ba của công nghệ wafer-scale của Cerebras:⁶
Thông số kỹ thuật silicon: - Nút quy trình: TSMC 5nm - Diện tích die: 46.225 mm² (21,5 cm × 21,5 cm) - Số lượng transistor: 4 nghìn tỷ - Lõi AI: 900.000 - Hiệu suất đỉnh: 125 PetaFLOPs (FP16)
Hệ thống bộ nhớ: - SRAM trên chip: 44 GB - Băng thông SRAM: 21 PB/s - Mở rộng bộ nhớ ngoài: MemoryX (lên đến 1,5 PB mỗi hệ thống) - Băng thông bộ nhớ ra ngoài: Kết nối băng thông cao độc quyền
Kết nối: - Fabric trên wafer: Băng thông tổng hợp 214 Pb/s - Giao tiếp lõi-với-lõi: Độ trễ một chu kỳ xung nhịp - Không có định tuyến ngoài chip cho giao tiếp trong wafer
Hệ thống CS-3
CS-3 đóng gói WSE-3 thành một hệ thống có thể triển khai:⁷
Thông số kỹ thuật vật lý: - Hình thức: Đơn vị rack 15U - Tiêu thụ điện: ~23 kW - Làm mát: Hệ thống làm mát bằng nước độc quyền
Thành phần hệ thống: - Bộ xử lý WSE-3 - Bộ nhớ ngoài MemoryX (tùy chọn) - Kết nối cụm SwarmX (cho các triển khai đa CS-3) - Hệ thống quản lý và I/O
Mở rộng cụm: - Cụm tối đa: 2.048 hệ thống CS-3 - Tính toán cụm: Lên đến 256 ExaFLOPs (FP16) - Dung lượng mô hình: Lên đến 24 nghìn tỷ tham số - Khả năng huấn luyện: Llama 2-70B có thể huấn luyện trong một ngày trên cụm vừa phải
So sánh các thế hệ
| Thông số | WSE-1 | WSE-2 | WSE-3 |
|---|---|---|---|
| Nút quy trình | 16nm | 7nm | 5nm |
| Transistor | 1,2T | 2,6T | 4T |
| Lõi AI | 400.000 | 850.000 | 900.000 |
| Bộ nhớ trên chip | 18 GB | 40 GB | 44 GB |
| Băng thông bộ nhớ | 9 PB/s | 20 PB/s | 21 PB/s |
| Đỉnh FP16 | 47 PF | 75 PF | 125 PF |
Đặc điểm hiệu suất
Tốc độ suy luận
Cerebras thể hiện ưu thế suy luận đáng kể:⁸
Llama 4 Maverick (400 tỷ tham số): - Cerebras: 2.500+ token/giây/người dùng - NVIDIA DGX B200: ~1.000 token/giây/người dùng - Lợi thế: >2,5 lần
Các mô hình Llama 3.1: - Llama 3.1 8B: Tốc độ suy luận kỷ lục thế giới - Llama 3.1 70B: Nhanh hơn nhiều lần so với các giải pháp GPU thay thế - Llama 3.1 405B: Được hỗ trợ trên Cerebras cloud
Tại sao suy luận vượt trội: Việc tạo token LLM bị nghẽn cổ chai bởi băng thông bộ nhớ—mỗi token yêu cầu tải trọng số mô hình từ bộ nhớ vào tính toán. Băng thông 21 PB/s trên chip của Cerebras loại bỏ bức tường bộ nhớ ràng buộc suy luận GPU.
Hiệu suất huấn luyện
Ưu điểm huấn luyện xuất phát từ tính toán phân tán được đơn giản hóa:⁹
Giảm độ phức tạp mã: Huấn luyện mô hình 175 tỷ tham số trên 4.000 GPU thường yêu cầu khoảng 20.000 dòng mã huấn luyện phân tán. Cerebras hoàn thành huấn luyện tương đương với 565 dòng—toàn bộ mô hình phù hợp trên wafer mà không cần độ phức tạp song song dữ liệu.
Loại bỏ giao tiếp: Hiệu suất huấn luyện GPU giảm khi kích thước cụm tăng do chi phí đồng bộ hóa gradient. Cerebras loại bỏ chi phí này cho các mô hình phù hợp trên chip, duy trì khả năng mở rộng tuyến tính cho các khối lượng công việc phù hợp.
Benchmark thời gian huấn luyện: - Llama 2-70B: Có thể huấn luyện trong một ngày trên cụm CS-3 - Các mô hình lên đến 24 nghìn tỷ tham số: Được hỗ trợ mà không cần thủ thuật phân phối phần mềm
Tính toán khoa học
Ngoài LLM, Cerebras thể hiện ưu thế trong mô phỏng khoa học:¹⁰
Động lực học phân tử: Cerebras đạt được mô phỏng động lực học phân tử thời gian dài nhanh hơn 179 lần so với siêu máy tính số 1 thế giới (Frontier). Các mẫu truy cập bộ nhớ của khối lượng công việc phù hợp tốt với kiến trúc wafer-scale.
Khám phá thuốc: Mayo Clinic đã triển khai mô hình dự đoán phản ứng thuốc ung thư chạy "nhanh hơn hàng trăm lần" trên Cerebras so với GPU thông thường.
Genomics: Mayo Genomic Foundation Model được xây dựng đặc biệt trên cơ sở hạ tầng Cerebras để phân tích genomic quy mô lớn.
So sánh Cerebras với NVIDIA
Nơi Cerebras vượt trội
Khối lượng công việc bị giới hạn băng thông bộ nhớ:¹¹ - Suy luận LLM (đặc biệt các mô hình lớn) - Huấn luyện các mô hình phù hợp trên chip - Mô phỏng khoa học với truy cập bộ nhớ streaming - Suy luận thời gian thực yêu cầu độ trễ thấp nhất quán
Triển khai đơn giản hóa: - Huấn luyện thiết bị đơn cho các mô hình vừa phải (không cần mã huấn luyện phân tán) - Hiệu suất xác định (không có biến động phối hợp đa chip) - Giảm độ phức tạp cơ sở hạ tầng (không cần fabric InfiniBand cho triển khai nhỏ)
Hiệu quả chi phí (được công bố): - Suy luận nhanh hơn 21 lần với 1/3 chi phí của DGX B200 - $0,10/triệu token (Llama 3.1 8B) - $0,60/triệu token (Llama 3.1 70B)
Nơi NVIDIA vượt trội
Độ rộng hệ sinh thái:¹² - Mô hình lập trình CUDA thống trị ngành - Hỗ trợ framework phần mềm rộng nhất - Cộng đồng nhà phát triển lớn nhất - Thư viện tối ưu hóa mô hình phong phú nhất
Linh hoạt khối lượng công việc: - Huấn luyện và suy luận trên cùng phần cứng - Hỗ trợ kiến trúc mô hình rộng - Phát triển hoạt động tùy chỉnh qua CUDA - Các mẫu triển khai doanh nghiệp đã được thiết lập
Độ chín chuỗi cung ứng: - Nhiều nhà tích hợp hệ thống OEM - Cơ sở hạ tầng hỗ trợ toàn cầu - Đường mua sắm doanh nghiệp đã được chứng minh - Thị trường thứ cấp cho thiết bị đã qua sử dụng
Fine-tuning và tùy chỉnh: - LoRA, QLoRA, fine-tuning đầy đủ được hỗ trợ tốt - Hệ sinh thái công cụ phong phú - Quy trình fine-tuning doanh nghiệp đã được thiết lập
Ma trận quyết định
| Yếu tố | Chọn Cerebras | Chọn NVIDIA |
|---|---|---|
| Khối lượng công việc chính | Nặng suy luận | Nặng huấn luyện |
| Kích thước mô hình | Lớn (70B+) | Mọi kích thước |
| Yêu cầu độ trễ | Cực thấp, nhất quán | Vừa phải |
| Chuyên môn đội ngũ | Hạn chế về cơ sở hạ tầng ML | Mạnh về CUDA/phân tán |
| Nhu cầu tùy chỉnh | Mô hình tiêu chuẩn | Kiến trúc tùy chỉnh |
| Đầu tư hiện có | Greenfield | Cơ sở hạ tầng GPU đã tồn tại |
| Khả năng chịu rủi ro | Cao hơn (hệ sinh thái mới) | Thấp hơn (đã được chứng minh) |
Tùy chọn triển khai
Cerebras Cloud
Dịch vụ suy luận được quản lý để truy cập ngay lập tức:¹³
Giá cả (tháng 12/2025): - Llama 3.1 8B: $0,10/triệu token - Llama 3.1 70B: $0,60/triệu token - Llama 3.1 405B: Có sẵn - Llama 4 Scout/Maverick: Được hỗ trợ
Tính năng: - API tương thích OpenAI - Playground web để thử nghiệm - Các gói hỗ trợ doanh nghiệp - Tuân thủ SOC 2
Trường hợp sử dụng: - Suy luận production yêu cầu tốc độ - Đánh giá trước khi đầu tư tại chỗ - Khối lượng công việc biến đổi mà không cần cam kết vốn
Triển khai tại chỗ
Hệ thống CS-3 cho cơ sở hạ tầng riêng:¹⁴
Cân nhắc: - Đầu tư vốn đáng kể - Yêu cầu làm mát độc quyền - Cài đặt và hỗ trợ chuyên biệt - Thị trường thứ cấp hạn chế (không giống GPU)
Phù hợp nhất cho: - Yêu cầu chủ quyền dữ liệu - Sử dụng cao bền vững - Nhu cầu tích hợp tùy chỉnh - Khác biệt hóa chiến lược từ cloud
Cơ sở hạ tầng chuyên dụng
Cerebras vận hành các trung tâm dữ liệu chuyên dụng:¹⁵
Vị trí (2025): - Oklahoma City, Mỹ (300+ hệ thống CS-3) - Montreal, Canada (hoạt động từ tháng 7/2025) - Dallas, Mỹ - Reno, Mỹ - Ireland - Gelderland, Hà Lan
Công suất: - Công suất tổng hợp 40+ triệu token mỗi giây - Mở rộng công suất 20 lần trong năm 2025 - Đối tác với G42 cho các cơ sở bổ sung
Tùy chọn thuê chuyên dụng: - Phân bổ công suất đảm bảo - Thỏa thuận SLA tùy chỉnh - Hỗ trợ tích hợp doanh nghiệp
Triển khai khách hàng
Áp dụng doanh nghiệp
Các tổ chức lớn triển khai Cerebras:¹⁶
Công nghệ: - Meta: Đối tác cung cấp năng lượng cho Llama API - Mistral: Trợ lý AI Le Chat - Perplexity: Công cụ tìm kiếm AI - IBM: Ứng dụng AI doanh nghiệp
Y tế: - Mayo Clinic: Genomic Foundation Model - GlaxoSmithKline: Khám phá thuốc - Mô hình dự đoán phản ứng thuốc ung thư
Chính phủ: - Bộ Năng lượng Mỹ - Bộ Quốc phòng Mỹ - Chương trình DARPA MAPLE (hợp đồng 45 triệu đô la cho mô phỏng chiến trường đa miền)
Sáng kiến AI có chủ quyền
Chương trình Cerebras for Nations hỗ trợ cơ sở hạ tầng AI chính phủ:¹⁷
Các cam kết hiện tại: - Hoa Kỳ - Vương quốc Anh - Các Tiểu vương quốc Ả Rập Thống nhất (đối tác G42)
Mục tiêu mở rộng: - Ấn Độ - Châu Âu (nhiều quốc gia) - Trung Đông - Châu Á - Thái Bình Dương - Châu Mỹ Latinh
Đề xuất giá trị: - Cơ sở hạ tầng AI trong nước - Tuân thủ chủ quyền dữ liệu - Phát triển năng lực quốc gia - Giảm phụ thuộc vào cloud nước ngoài
Cân nhắc cơ sở hạ tầng
Điện và làm mát
Hệ thống Cerebras yêu cầu cơ sở hạ tầng chuyên biệt:¹⁸
Yêu cầu điện: - CS-3: ~23 kW mỗi
[Nội dung bị cắt ngắn để dịch]