Bộ tăng tốc AI vượt xa GPU: TPU, Trainium, Gaudi, Groq, Cerebras 2025

Google TPU Trillium, AWS Trainium3, Intel Gaudi 3, Groq LPU, Cerebras WSE-3, SambaNova SN40L. Phân tích các bộ tăng tốc AI thách thức sự thống trị GPU của NVIDIA.

Madison Kersh

Apr 24, 2026 12 min read Disclaimer

Bộ tăng tốc AI vượt xa GPU: TPU, Trainium, Gaudi, Groq, Cerebras 2025

Bộ tăng tốc AI vượt xa GPU: cảnh quan silicon thay thế

Cập nhật ngày 11 tháng 12, 2025

Cập nhật tháng 12/2025: AWS Trainium3 đang được vận chuyển với 2.52 PFLOPS FP8 mỗi chip và 144GB HBM3e. Google TPU v7 Ironwood mang lại 4,614 TFLOPS mỗi chip—các nhà phân tích gọi đây là "ngang bằng với Blackwell." Intel xác nhận việc ngừng sản xuất Gaudi khi GPU thế hệ tiếp theo ra mắt vào 2026-2027. Groq LPU đạt 750 tokens/giây trên các mô hình nhỏ hơn trong khi Cerebras WSE-3 đạt đỉnh 125 PFLOPS. Silicon thay thế đang thu hút sức hút cho các khối lượng công việc cụ thể bất chấp 80% sự thống trị thị trường của NVIDIA.

NVIDIA nắm giữ khoảng 80% thị trường bộ tăng tốc AI, nhưng nhu cầu ngày càng tăng về cơ sở hạ tầng hiệu quả về chi phí và tích hợp theo chiều dọc đang từ từ gia tăng việc áp dụng silicon thay thế.¹ Google phát hành TPU thế hệ thứ bảy Ironwood vào tháng 11/2025, mà các nhà phân tích mô tả là "có thể nói là ngang bằng với NVIDIA Blackwell."² AWS triển khai hơn 500,000 chip Trainium2 cho việc huấn luyện mô hình của Anthropic—cụm AI không phải NVIDIA lớn nhất đang hoạt động.³ Cerebras ra mắt WSE-3 với 4 nghìn tỷ transistor và 125 petaflops hiệu suất đỉnh.⁴ Cảnh quan bộ tăng tốc AI mở rộng ra xa ngoài GPU, cung cấp các kiến trúc được tối ưu hóa cho các khối lượng công việc cụ thể mà các doanh nghiệp ngày càng đánh giá.

GPU vẫn là lựa chọn mặc định cho tính linh hoạt và sự trưởng thành của hệ sinh thái. Sự thống trị của CUDA và đổi mới bền vững của NVIDIA khiến chi phí chuyển đổi trở nên đáng kể. Tuy nhiên, các hyperscaler thiết kế silicon riêng, các startup thách thức các giả định về kiến trúc chip, và việc định giá tích cực của Intel đều tạo ra các tùy chọn không tồn tại cách đây năm năm. Các tổ chức chạy AI ở quy mô lớn giờ đây đánh giá các lựa chọn bộ tăng tốc như các quyết định cơ sở hạ tầng chiến lược hơn là mua sắm hàng hóa.

Google TPU: chuẩn mực hyperscaler

Google công bố Trillium (TPU v6) vào tháng 5/2024 và đưa ra sử dụng rộng rãi vào 2025.⁵ TPU thế hệ thứ sáu đạt được hiệu suất tính toán đỉnh cao gấp 4.7 lần mỗi chip so với TPU v5e.⁶ Google mở rộng kích thước đơn vị nhân ma trận và tăng tốc độ xung nhịp để đạt khoảng 926 teraflops hiệu suất BF16.⁷

Dung lượng và băng thông bộ nhớ tăng gấp đôi so với thế hệ trước.⁸ Trillium cung cấp 32 gigabyte dung lượng HBM mỗi chip với băng thông tăng tỷ lệ thuận.⁹ Băng thông kết nối liên chip cũng tăng gấp đôi, cải thiện hiệu quả mở rộng đa chip.¹⁰

Hiệu quả năng lượng cải thiện hơn 67% so với TPU v5e.¹¹ Các nhà phân tích ngành ước tính TPU v6 hoạt động hiệu quả hơn 60-65% so với GPU, so với lợi thế hiệu quả 40-45% ở các thế hệ trước.¹² Lợi ích hiệu quả tăng gộp ở quy mô trung tâm dữ liệu nơi các ràng buộc năng lượng giới hạn mật độ triển khai.

Trillium mở rộng đến 256 TPU trong một pod băng thông cao, độ trễ thấp duy nhất.¹³ Ngoài khả năng mở rộng cấp pod, công nghệ multislice và Titanium Intelligence Processing Unit cho phép mở rộng đến hàng trăm pod, kết nối hàng chục nghìn chip trong siêu máy tính quy mô tòa nhà.¹⁴ Cụm Trillium lớn nhất cung cấp 91 exaflops—gấp bốn lần so với cụm TPU v5p lớn nhất.¹⁵

Các benchmark huấn luyện chứng minh sự cải thiện hiệu suất. Trillium mang lại hơn bốn lần tăng hiệu suất huấn luyện cho Gemma 2-27B, MaxText Default-32B, và Llama2-70B so với TPU v5e.¹⁶ Thông lượng suy luận cải thiện ba lần cho Stable Diffusion XL.¹⁷ Google sử dụng Trillium để huấn luyện Gemini 2.0.¹⁸

Google tiết lộ TPU v7 (Ironwood) tại Cloud Next vào tháng 4/2025.¹⁹ Ironwood mang lại 4,614 teraflops mỗi chip và sẽ vận chuyển trong các cấu hình 256 chip và 9,216 chip.²⁰ Nhóm SemiAnalysis ca ngợi silicon, tuyên bố sự vượt trội của Google giữa các hyperscaler là không thể sánh bằng.²¹

Việc truy cập TPU yêu cầu Google Cloud. Các tổ chức cam kết với triển khai đa đám mây hoặc tại chỗ không thể trực tiếp sử dụng cơ sở hạ tầng TPU. Mô hình chỉ đám mây hạn chế việc áp dụng cho các tổ chức có yêu cầu về cư trú hoặc chủ quyền dữ liệu mà các khu vực Google Cloud không đáp ứng.

AWS Trainium: đối tác Anthropic

AWS ra mắt Trainium3 vào tháng 12/2025—chip AI 3nm đầu tiên của công ty.²² Mỗi chip Trainium3 cung cấp 2.52 petaflops tính toán FP8 với 144 gigabyte bộ nhớ HBM3e và 4.9 terabyte mỗi giây băng thông bộ nhớ.²³ Các thông số kỹ thuật đại diện cho gấp 1.5 lần dung lượng bộ nhớ và gấp 1.7 lần băng thông hơn Trainium2.²⁴

Trn3 UltraServer mở rộng đến 144 chip Trainium3 cung cấp 362 petaflops tổng hiệu suất FP8.²⁵ Một UltraServer được cấu hình đầy đủ cung cấp 20.7 terabyte HBM3e và 706 terabyte mỗi giây băng thông bộ nhớ tổng hợp.²⁶ AWS tuyên bố gấp 4.4 lần hiệu suất tính toán, gấp 4 lần hiệu quả năng lượng, và gần gấp 4 lần băng thông bộ nhớ hơn các hệ thống dựa trên Trainium2.²⁷

Fabric NeuronSwitch-v1 tăng gấp đôi băng thông kết nối liên chip so với Trn2 UltraServer.²⁸ Kiến trúc fabric all-to-all cho phép huấn luyện phân tán hiệu quả trên toàn bộ bộ chip.

Project Rainier đại diện cho triển khai cơ sở hạ tầng AI lớn nhất của AWS. AWS hợp tác với Anthropic để kết nối hơn 500,000 chip Trainium2 thành cụm tính toán AI lớn nhất thế giới—lớn gấp năm lần so với cơ sở hạ tầng được sử dụng để huấn luyện thế hệ mô hình trước của Anthropic.²⁹ Đối tác này chứng minh khả năng tồn tại của Trainium cho việc huấn luyện mô hình tiên tiến.

Các instance EC2 Trn2 dựa trên Trainium2 cung cấp hiệu suất giá 30-40% tốt hơn so với các instance EC2 P5e và P5en dựa trên GPU theo AWS.³⁰ Lợi thế chi phí quan trọng cho các khối lượng công việc huấn luyện liên tục nơi chi phí tính toán chiếm ưu thế trong ngân sách.

AWS ngừng dòng Inferentia vì các khối lượng công việc suy luận ngày càng giống huấn luyện trong yêu cầu tính toán của chúng.³¹ Kiến trúc Trainium giờ xử lý cả huấn luyện và suy luận, đơn giản hóa danh mục chip.

Trainium4 đang được phát triển với giao hàng dự kiến vào cuối 2026 hoặc đầu 2027.³² AWS công bố ít nhất gấp 6 lần thông lượng FP4, gấp 3 lần hiệu suất FP8, và gấp 4 lần băng thông bộ nhớ so với Trainium3.³³ Trainium4 sẽ hỗ trợ công nghệ kết nối NVIDIA NVLink Fusion, cho phép tích hợp với GPU NVIDIA trong các cấu hình rack chung.³⁴

Intel Gaudi: đối thủ cạnh tranh về giá

Intel ra mắt Gaudi 3 vào 2024, định vị nó như một thay thế hiệu quả về chi phí cho NVIDIA H100.³⁵ Gaudi 3 sử dụng hai chiplet với 64 lõi xử lý tensor, tám động cơ nhân ma trận, và 96 megabyte bộ nhớ cache SRAM on-die với 19.2 terabyte mỗi giây băng thông.³⁶ Chip tích hợp 128 gigabyte bộ nhớ HBM2e với 3.67 terabyte mỗi giây băng thông.³⁷

Gaudi 3 cung cấp 1,835 BF16/FP8 matrix teraflops ở khoảng 600 watt TDP.³⁸ So với NVIDIA H100, Gaudi 3 cung cấp hiệu suất matrix BF16 cao hơn (1,835 so với 1,979 teraflops không có sparsity) và dung lượng HBM nhiều hơn (128 so với 80 gigabyte).³⁹ Băng thông bộ nhớ cũng vượt H100.⁴⁰

Intel tuyên bố Gaudi 3 thường nhanh hơn 40% so với NVIDIA H100 và có thể vượt H100 lên đến 1.7 lần khi huấn luyện Llama2-13B ở độ chính xác FP8.⁴¹ Tuyên bố hiệu quả năng lượng ấn tượng hơn—lên đến 220% giá trị của H100 trên benchmark Llama và 230% trên Falcon.⁴²

Lợi thế định giá là đáng kể. Một hệ thống tám bộ tăng tốc Gaudi 3 có giá $157,613 so với $300,107 cho một hệ thống H100 tương đương.⁴³ Giá mỗi chip chạy khoảng $15,625 cho Gaudi 3 so với $30,678 cho H100.⁴⁴ Chênh lệch chi phí cho phép các tổ chức triển khai khoảng gấp đôi khả năng tính toán với ngân sách tương đương.

Gaudi 3 sử dụng HBM2e thay vì HBM3 hoặc HBM3e, góp phần vào chi phí thấp hơn nhưng hạn chế băng thông bộ nhớ so với các thay thế thế hệ hiện tại.⁴⁵ Các tổ chức chạy khối lượng công việc bị ràng buộc băng thông bộ nhớ nên đánh giá cẩn thận sự đánh đổi này.

Thách thức hệ sinh thái hạn chế việc áp dụng Gaudi. CUDA của NVIDIA thống trị phát triển AI, và việc chuyển sang công cụ của Intel yêu cầu đầu tư kỹ thuật.⁴⁶ Thị phần của Intel trong bộ tăng tốc AI vẫn không đáng kể bất chấp phần cứng cạnh tranh.⁴⁷

Intel công bố Gaudi sẽ bị ngừng sản xuất khi GPU AI thế hệ tiếp theo ra mắt vào 2026-2027.⁴⁸ Thông báo ngừng sản xuất tạo ra rủi ro áp dụng cho các tổ chức đang xem xét triển khai Gaudi nhiều năm. Đối tác có thể do dự đầu tư vào dòng sản phẩm với thông báo kết thúc cuộc đời.

Groq LPU: dẫn đầu về tốc độ suy luận

Language Processing Unit (LPU) của Groq có cách tiếp cận kiến trúc hoàn toàn khác, tối ưu hóa cụ thể cho suy luận thay vì huấn luyện.⁴⁹ Kiến trúc Tensor Streaming Processor đạt 750 TOPS ở INT8 và 188 teraflops ở FP16 với băng thông SRAM on-chip khổng lồ 80 terabyte mỗi giây.⁵⁰

LPU thế hệ đầu tiên cung cấp hơn 1 teraop mỗi giây mỗi milimét vuông trên chip 14nm hoạt động ở 900 MHz.⁵¹ LPU thế hệ thứ hai sẽ sử dụng quy trình 4nm của Samsung.⁵²

Tốc độ suy luận xác định đề xuất giá trị của Groq. LPU phục vụ Mixtral 8x7B ở 480 token mỗi giây và Llama 2 70B ở 300 token mỗi giây.⁵³ Các mô hình nhỏ hơn như Llama 2 7B đạt 750 token mỗi giây.⁵⁴ Groq là nhà cung cấp API đầu tiên phá vỡ 100 token mỗi giây trên Llama2-70B.⁵⁵

LPU cung cấp suy luận nhanh hơn đến 18 lần so với GPU truyền thống cho các mô hình ngôn ngữ với độ trễ xác định dưới milisecond.⁵⁶ Hiệu quả năng lượng đạt 1-3 joule mỗi token.⁵⁷

Card LPU có giá khoảng $20,000—có thể so sánh với GPU NVIDIA cao cấp—nhưng xuất sắc đặc biệt trong tốc độ và hiệu quả suy luận.⁵⁸ Sự đánh đổi rõ ràng: LPU chỉ xử lý suy luận, không phải huấn luyện.⁵⁹

Dấu chân triển khai của Groq mở rộng đáng kể vào 2025. Công ty vận hành một tá trung tâm dữ liệu trên khắp Mỹ, Canada, Trung Đông và châu Âu.⁶⁰ Vào tháng 9/2025, Groq huy động $750 triệu với định giá $6.9 tỷ.⁶¹

Đối tác Saudi Arabia được công bố vào tháng 2/2025 cam kết $1.5 tỷ để xây dựng những gì Groq mô tả là trung tâm dữ liệu suy luận AI lớn nhất thế giới ở Dammam.⁶² Triển khai ban đầu có 19,000 LPU với các mở rộng dung lượng được lên kế hoạch vượt quá 100,000 LPU vào 2027.⁶³

Cerebras WSE-3: tích hợp quy mô wafer

Cerebras có cách tiếp cận kiến trúc triệt để nhất, xây dựng chip ở quy mô wafer thay vì cắt wafer thành các bộ xử lý riêng lẻ.⁶⁴ WSE-3 chứa 4 nghìn tỷ transistor trên toàn bộ wafer—46,225 milimét vuông silicon.⁶⁵

WSE-3 đóng gói 900,000 lõi tính toán được tối ưu hóa AI cung cấp 125 petaflops hiệu suất AI đỉnh.⁶⁶ SRAM on-chip đạt 44 gigabyte với 21 petabyte mỗi giây băng thông bộ nhớ.⁶⁷ Băng thông fabric đạt 214 petabit mỗi giây.⁶⁸ Chip được chế tạo trên quy trình 5nm của TSMC.⁶⁹

Hệ thống CS-3 tăng gấp đôi hiệu suất của CS-2 trong cùng envelope năng lượng 15-kilowatt.⁷⁰ Một CS-3 đơn lẻ phù hợp trong 15U không gian rack.⁷¹ Các tùy chọn bộ nhớ bên ngoài mở rộng dung lượng đến 1.5 terabyte, 12 terabyte, hoặc 1.2 petabyte tùy thuộc vào cấu hình.⁷²

Dung lượng mô hình mở rộng đáng kể. CS-3 có thể huấn luyện các mô hình mạng neural lên đến 24 nghìn tỷ tham số.⁷³ Các cụm mở rộng đến 2,048 hệ thống CS-3 cung cấp lên đến 256 exaflops tính toán FP16.⁷⁴

Cerebras tuyên bố lợi thế dễ sử dụng đáng kể. Nền tảng yêu cầu ít hơn 97% mã so với GPU cho LLM và huấn luyện các mô hình từ 1 tỷ đến 24 nghìn tỷ tham số trong chế độ song song dữ liệu thuần túy.⁷⁵ Cấu hình bốn hệ thống nhỏ gọn có thể tinh chỉnh mô hình 70B trong một ngày.⁷⁶ Ở quy mô đầy đủ 2,048 hệ thống, Llama 70B huấn luyện từ đầu trong một ngày.⁷⁷

Siêu máy tính Condor Galaxy 3 ở Dallas sẽ triển khai 64 hệ thống CS-3 cho 8 exaflops tính toán FP16.⁷⁸ Tạp chí TIME công nhận WSE-3 như một Phát minh Tốt nhất năm 2024.⁷⁹

SambaNova SN40L: dataflow có thể cấu hình lại

Kiến trúc Reconfigurable Dataflow Unit (RDU) của SambaNova khác với cả GPU và ASIC tùy chỉnh.⁸⁰ SN40L kết hợp tính linh hoạt dataflow on-chip với hệ thống bộ nhớ ba tầng: SRAM on-chip, HBM on-package, và DRAM off-package.⁸¹

SN40L sử dụng quy trình 5nm của TSMC trong gói CoWoS hai die.⁸² Mỗi socket chứa 102 tỷ transistor cung cấp 640 BF16 teraflops và 520 megabyte SRAM on-chip.⁸³ Tầng DDR hỗ trợ lên đến 1.5 terabyte dung lượng bộ nhớ ở hơn

Bộ tăng tốc AI vượt xa GPU: cảnh quan silicon thay thế

Google TPU: chuẩn mực hyperscaler

AWS Trainium: đối tác Anthropic

Intel Gaudi: đối thủ cạnh tranh về giá

Groq LPU: dẫn đầu về tốc độ suy luận

Cerebras WSE-3: tích hợp quy mô wafer

SambaNova SN40L: dataflow có thể cấu hình lại

You Might Also Like

Lập Lịch Khối Lượng Công Việc AI: Tối Ưu Hóa Sử Dụng GPU Trê...

Vận hành Bảo mật Hạ tầng AI: Yêu cầu SOC cho Cụm GPU

Kế Hoạch Xây Dựng Hạ Tầng AI 600 Tỷ USD: CapEx của Hyperscal...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_