Bộ tăng tốc AI ngoài GPU: TPU, Trainium, Gaudi, Groq, Cerebras 2025

Google TPU v7 sánh ngang Blackwell. AWS Trainium3 đạt 2,52 PFLOPS. Groq LPU cung cấp 750 token/giây. Bức tranh bộ tăng tốc AI ngoài 80% thị phần của NVIDIA.

Bộ tăng tốc AI ngoài GPU: TPU, Trainium, Gaudi, Groq, Cerebras 2025

Bộ tăng tốc AI ngoài GPU: bức tranh silicon thay thế

Cập nhật ngày 11 tháng 12 năm 2025

Cập nhật tháng 12/2025: AWS Trainium3 xuất xưởng với 2,52 PFLOPS FP8 mỗi chip và 144GB HBM3e. Google TPU v7 Ironwood đạt 4.614 TFLOPS mỗi chip—các nhà phân tích đánh giá "ngang hàng với Blackwell." Intel xác nhận ngừng sản xuất Gaudi khi GPU thế hệ tiếp theo ra mắt 2026-2027. Groq LPU đạt 750 token/giây trên các mô hình nhỏ hơn trong khi Cerebras WSE-3 đạt 125 PFLOPS đỉnh. Silicon thay thế đang được áp dụng nhiều hơn cho các khối lượng công việc cụ thể bất chấp sự thống trị 80% thị trường của NVIDIA.

NVIDIA nắm giữ khoảng 80% thị trường bộ tăng tốc AI, nhưng nhu cầu ngày càng tăng về hạ tầng tiết kiệm chi phí và tích hợp theo chiều dọc đang dần tăng việc áp dụng silicon thay thế.¹ Google phát hành TPU thế hệ thứ bảy Ironwood vào tháng 11 năm 2025, được các nhà phân tích mô tả là "có thể nói ngang hàng với NVIDIA Blackwell."² AWS triển khai hơn 500.000 chip Trainium2 cho việc huấn luyện mô hình của Anthropic—cụm AI không phải NVIDIA lớn nhất đang hoạt động.³ Cerebras ra mắt WSE-3 với 4 nghìn tỷ transistor và 125 petaflops hiệu suất đỉnh.⁴ Bức tranh bộ tăng tốc AI mở rộng vượt xa GPU, cung cấp các kiến trúc được tối ưu hóa cho các khối lượng công việc cụ thể mà doanh nghiệp ngày càng đánh giá cao.

GPU vẫn là lựa chọn mặc định cho tính linh hoạt và độ trưởng thành của hệ sinh thái. Sự thống trị của CUDA và đổi mới liên tục của NVIDIA khiến chi phí chuyển đổi đáng kể. Tuy nhiên, các hyperscaler thiết kế silicon riêng, các startup thách thức các giả định về kiến trúc chip, và định giá cạnh tranh của Intel đều tạo ra các lựa chọn không tồn tại năm năm trước. Các tổ chức chạy AI quy mô lớn giờ đây đánh giá lựa chọn bộ tăng tốc như quyết định hạ tầng chiến lược thay vì mua sắm hàng hóa thông thường.

Google TPU: chuẩn mực hyperscaler

Google công bố Trillium (TPU v6) vào tháng 5 năm 2024 và phát hành rộng rãi vào năm 2025.⁵ TPU thế hệ thứ sáu đạt hiệu suất tính toán đỉnh gấp 4,7 lần mỗi chip so với TPU v5e.⁶ Google mở rộng kích thước đơn vị nhân ma trận và tăng tốc độ xung nhịp để đạt khoảng 926 teraflops hiệu suất BF16.⁷

Dung lượng bộ nhớ và băng thông tăng gấp đôi so với thế hệ trước.⁸ Trillium cung cấp 32 gigabyte dung lượng HBM mỗi chip với băng thông tăng tương ứng.⁹ Băng thông kết nối liên chip cũng tăng gấp đôi, cải thiện hiệu quả mở rộng đa chip.¹⁰

Hiệu quả năng lượng cải thiện hơn 67% so với TPU v5e.¹¹ Các nhà phân tích ngành ước tính TPU v6 hoạt động hiệu quả hơn GPU 60-65%, so với lợi thế hiệu quả 40-45% ở các thế hệ trước.¹² Các cải thiện hiệu quả tích lũy ở quy mô trung tâm dữ liệu nơi giới hạn điện năng hạn chế mật độ triển khai.

Trillium mở rộng đến 256 TPU trong một pod băng thông cao, độ trễ thấp duy nhất.¹³ Ngoài khả năng mở rộng cấp pod, công nghệ multislice và Titanium Intelligence Processing Unit cho phép mở rộng đến hàng trăm pod, kết nối hàng chục nghìn chip trong các siêu máy tính quy mô tòa nhà.¹⁴ Cụm Trillium lớn nhất cung cấp 91 exaflops—gấp bốn lần cụm TPU v5p lớn nhất.¹⁵

Các benchmark huấn luyện chứng minh những cải thiện hiệu suất. Trillium cung cấp tăng hiệu suất huấn luyện hơn bốn lần cho Gemma 2-27B, MaxText Default-32B và Llama2-70B so với TPU v5e.¹⁶ Thông lượng suy luận cải thiện ba lần cho Stable Diffusion XL.¹⁷ Google sử dụng Trillium để huấn luyện Gemini 2.0.¹⁸

Google công bố TPU v7 (Ironwood) tại Cloud Next vào tháng 4 năm 2025.¹⁹ Ironwood cung cấp 4.614 teraflops mỗi chip và sẽ xuất xưởng với cấu hình 256 chip và 9.216 chip.²⁰ Đội ngũ SemiAnalysis ca ngợi silicon này, tuyên bố sự vượt trội của Google trong số các hyperscaler là không ai sánh kịp.²¹

Truy cập TPU yêu cầu Google Cloud. Các tổ chức cam kết triển khai đa đám mây hoặc on-premises không thể sử dụng trực tiếp hạ tầng TPU. Mô hình chỉ đám mây hạn chế việc áp dụng cho các tổ chức có yêu cầu lưu trú dữ liệu hoặc chủ quyền mà các vùng Google Cloud không đáp ứng.

AWS Trainium: quan hệ đối tác Anthropic

AWS ra mắt Trainium3 vào tháng 12 năm 2025—chip AI 3nm đầu tiên của công ty.²² Mỗi chip Trainium3 cung cấp 2,52 petaflops tính toán FP8 với 144 gigabyte bộ nhớ HBM3e và 4,9 terabyte mỗi giây băng thông bộ nhớ.²³ Các thông số đại diện cho dung lượng bộ nhớ nhiều hơn 1,5 lần và băng thông nhiều hơn 1,7 lần so với Trainium2.²⁴

Trn3 UltraServer mở rộng đến 144 chip Trainium3 cung cấp tổng cộng 362 petaflops hiệu suất FP8.²⁵ Một UltraServer cấu hình đầy đủ cung cấp 20,7 terabyte HBM3e và 706 terabyte mỗi giây băng thông bộ nhớ tổng hợp.²⁶ AWS tuyên bố hiệu suất tính toán cao hơn 4,4 lần, hiệu quả năng lượng cao hơn 4 lần và băng thông bộ nhớ cao hơn gần 4 lần so với các hệ thống dựa trên Trainium2.²⁷

Fabric NeuronSwitch-v1 tăng gấp đôi băng thông kết nối liên chip so với Trn2 UltraServer.²⁸ Kiến trúc fabric all-to-all cho phép huấn luyện phân tán hiệu quả trên toàn bộ số lượng chip.

Project Rainier đại diện cho triển khai hạ tầng AI lớn nhất của AWS. AWS hợp tác với Anthropic để kết nối hơn 500.000 chip Trainium2 vào cụm tính toán AI lớn nhất thế giới—lớn hơn năm lần so với hạ tầng được sử dụng để huấn luyện thế hệ mô hình trước của Anthropic.²⁹ Quan hệ đối tác chứng minh tính khả thi của Trainium cho việc huấn luyện mô hình tiên tiến.

Các instance EC2 Trn2 dựa trên Trainium2 cung cấp hiệu suất giá tốt hơn 30-40% so với các instance EC2 P5e và P5en dựa trên GPU theo AWS.³⁰ Lợi thế chi phí quan trọng cho các khối lượng công việc huấn luyện kéo dài nơi chi phí tính toán chiếm ưu thế ngân sách.

AWS ngừng dòng Inferentia vì các khối lượng công việc suy luận ngày càng giống huấn luyện về yêu cầu tính toán.³¹ Kiến trúc Trainium giờ xử lý cả huấn luyện và suy luận, đơn giản hóa danh mục chip.

Trainium4 đang được phát triển với dự kiến giao hàng vào cuối 2026 hoặc đầu 2027.³² AWS công bố thông lượng FP4 cao hơn ít nhất 6 lần, hiệu suất FP8 cao hơn 3 lần và băng thông bộ nhớ cao hơn 4 lần so với Trainium3.³³ Trainium4 sẽ hỗ trợ công nghệ kết nối NVIDIA NVLink Fusion, cho phép tích hợp với GPU NVIDIA trong các cấu hình rack chung.³⁴

Intel Gaudi: đối thủ cạnh tranh giá

Intel ra mắt Gaudi 3 vào năm 2024, định vị nó như một giải pháp thay thế tiết kiệm chi phí cho NVIDIA H100.³⁵ Gaudi 3 sử dụng hai chiplet với 64 lõi xử lý tensor, tám động cơ nhân ma trận và 96 megabyte cache SRAM trên chip với băng thông 19,2 terabyte mỗi giây.³⁶ Chip tích hợp 128 gigabyte bộ nhớ HBM2e với băng thông 3,67 terabyte mỗi giây.³⁷

Gaudi 3 cung cấp 1.835 teraflops ma trận BF16/FP8 ở khoảng 600 watt TDP.³⁸ So với NVIDIA H100, Gaudi 3 cung cấp hiệu suất ma trận BF16 cao hơn (1.835 so với 1.979 teraflops không có sparsity) và dung lượng HBM nhiều hơn (128 so với 80 gigabyte).³⁹ Băng thông bộ nhớ cũng vượt H100.⁴⁰

Intel tuyên bố Gaudi 3 thường nhanh hơn NVIDIA H100 40% và có thể vượt H100 đến 1,7 lần khi huấn luyện Llama2-13B ở độ chính xác FP8.⁴¹ Các tuyên bố về hiệu quả năng lượng ấn tượng hơn—đến 220% giá trị của H100 trên benchmark Llama và 230% trên Falcon.⁴²

Lợi thế giá đáng kể. Một hệ thống tám bộ tăng tốc Gaudi 3 có giá $157.613 so với $300.107 cho hệ thống H100 tương đương.⁴³ Giá mỗi chip khoảng $15.625 cho Gaudi 3 so với $30.678 cho H100.⁴⁴ Chênh lệch chi phí cho phép các tổ chức triển khai gấp đôi công suất tính toán với ngân sách tương đương.

Gaudi 3 sử dụng HBM2e thay vì HBM3 hoặc HBM3e, góp phần vào chi phí thấp hơn nhưng hạn chế băng thông bộ nhớ so với các giải pháp thay thế thế hệ hiện tại.⁴⁵ Các tổ chức chạy khối lượng công việc bị giới hạn băng thông bộ nhớ nên đánh giá sự đánh đổi này cẩn thận.

Thách thức hệ sinh thái hạn chế việc áp dụng Gaudi. CUDA của NVIDIA thống trị phát triển AI, và chuyển đổi sang công cụ của Intel đòi hỏi đầu tư kỹ thuật.⁴⁶ Thị phần của Intel trong bộ tăng tốc AI vẫn không đáng kể bất chấp phần cứng cạnh tranh.⁴⁷

Intel công bố Gaudi sẽ ngừng sản xuất khi GPU AI thế hệ tiếp theo ra mắt vào 2026-2027.⁴⁸ Thông báo ngừng sản xuất tạo ra rủi ro áp dụng cho các tổ chức đang cân nhắc triển khai Gaudi nhiều năm. Các đối tác có thể do dự đầu tư vào dòng sản phẩm đã được công bố kết thúc vòng đời.

Groq LPU: dẫn đầu tốc độ suy luận

Language Processing Unit (LPU) của Groq áp dụng cách tiếp cận kiến trúc hoàn toàn khác biệt, tối ưu hóa đặc biệt cho suy luận thay vì huấn luyện.⁴⁹ Kiến trúc Tensor Streaming Processor đạt 750 TOPS ở INT8 và 188 teraflops ở FP16 với băng thông SRAM trên chip khổng lồ 80 terabyte mỗi giây.⁵⁰

LPU thế hệ đầu tiên cung cấp hơn 1 teraop mỗi giây trên mỗi milimet vuông trên chip 14nm hoạt động ở 900 MHz.⁵¹ LPU thế hệ thứ hai sẽ sử dụng quy trình 4nm của Samsung.⁵²

Tốc độ suy luận định nghĩa đề xuất giá trị của Groq. LPU phục vụ Mixtral 8x7B ở 480 token mỗi giây và Llama 2 70B ở 300 token mỗi giây.⁵³ Các mô hình nhỏ hơn như Llama 2 7B đạt 750 token mỗi giây.⁵⁴ Groq là nhà cung cấp API đầu tiên vượt 100 token mỗi giây trên Llama2-70B.⁵⁵

LPU cung cấp suy luận nhanh hơn đến 18 lần so với GPU truyền thống cho các mô hình ngôn ngữ với độ trễ xác định dưới một phần nghìn giây.⁵⁶ Hiệu quả năng lượng đạt 1-3 joule mỗi token.⁵⁷

Card LPU có giá khoảng $20.000—tương đương với GPU NVIDIA cao cấp—nhưng xuất sắc đặc biệt trong tốc độ và hiệu quả suy luận.⁵⁸ Sự đánh đổi rõ ràng: LPU chỉ xử lý suy luận, không huấn luyện.⁵⁹

Phạm vi triển khai của Groq mở rộng đáng kể vào năm 2025. Công ty vận hành hàng chục trung tâm dữ liệu trên khắp Mỹ, Canada, Trung Đông và châu Âu.⁶⁰ Vào tháng 9 năm 2025, Groq huy động 750 triệu đô la với định giá 6,9 tỷ đô la.⁶¹

Quan hệ đối tác với Ả Rập Saudi được công bố vào tháng 2 năm 2025 cam kết 1,5 tỷ đô la để xây dựng những gì Groq mô tả là trung tâm dữ liệu suy luận AI lớn nhất thế giới tại Dammam.⁶² Các triển khai ban đầu có 19.000 LPU với kế hoạch mở rộng công suất vượt 100.000 LPU vào năm 2027.⁶³

Cerebras WSE-3: tích hợp quy mô wafer

Cerebras áp dụng cách tiếp cận kiến trúc cấp tiến nhất, xây dựng chip ở quy mô wafer thay vì cắt wafer thành các bộ xử lý riêng lẻ.⁶⁴ WSE-3 chứa 4 nghìn tỷ transistor trên toàn bộ wafer—46.225 milimet vuông silicon.⁶⁵

WSE-3 đóng gói 900.000 lõi tính toán tối ưu hóa AI cung cấp 125 petaflops hiệu suất AI đỉnh.⁶⁶ SRAM trên chip đạt 44 gigabyte với băng thông bộ nhớ 21 petabyte mỗi giây.⁶⁷ Băng thông fabric đạt 214 petabit mỗi giây.⁶⁸ Chip được sản xuất trên quy trình 5nm của TSMC.⁶⁹

Hệ thống CS-3 tăng gấp đôi hiệu suất của CS-2 trong cùng công suất điện 15 kilowatt.⁷⁰ Một CS-3 đơn vừa trong 15U không gian rack.⁷¹ Các tùy chọn bộ nhớ ngoài mở rộng dung lượng đến 1,5 terabyte, 12 terabyte hoặc 1,2 petabyte tùy thuộc vào cấu hình.⁷²

Công suất mô hình mở rộng đáng kể. CS-3 có thể huấn luyện các mô hình mạng thần kinh lên đến 24 nghìn tỷ tham số.⁷³ Các cụm mở rộng đến 2.048 hệ thống CS-3 cung cấp đến 256 exaflops tính toán FP16.⁷⁴

Cerebras tuyên bố lợi thế dễ sử dụng đáng kể. Nền tảng yêu cầu ít hơn 97% mã so với GPU cho LLM và huấn luyện các mô hình từ 1 tỷ đến 24 nghìn tỷ tham số ở chế độ song song dữ liệu thuần túy.⁷⁵ Cấu hình nhỏ gọn bốn hệ thống có thể tinh chỉnh mô hình 70B trong một ngày.⁷⁶ Ở quy mô đầy đủ 2.048 hệ thống, Llama 70B huấn luyện từ đầu trong một ngày.⁷⁷

Siêu máy tính Condor Galaxy 3 tại Dallas sẽ triển khai 64 hệ thống CS-3 cho 8 exaflops tính toán FP16.⁷⁸ Tạp chí TIME công nhận WSE-3 là một trong những Phát minh Tốt nhất năm 2024.⁷⁹

SambaNova SN40L: dataflow có thể tái cấu hình

Kiến trúc Reconfigurable Dataflow Unit (RDU) của SambaNova khác với cả GPU và ASIC tùy chỉnh.⁸⁰ SN40L kết hợp tính linh hoạt dataflow trên chip với hệ thống bộ nhớ ba tầng: SRAM trên chip, HBM trên package và DRAM ngoài package.⁸¹

SN40L sử dụng quy trình 5nm của TSMC trong package CoWoS hai die.⁸² Mỗi socket chứa 102 tỷ transistor cung cấp 640 teraflops BF16 và 520 megabyte SRAM trên chip.⁸³ Tầng DDR hỗ trợ đến 1,5 terabyte dung lượng bộ nhớ ở trên

[Nội dung bị cắt bớt cho bản dịch]

Yêu cầu báo giá_

Hãy cho chúng tôi biết về dự án của bạn và chúng tôi sẽ phản hồi trong vòng 72 giờ.

> TRUYỀN_TẢI_HOÀN_TẤT

Đã Nhận Yêu cầu_

Cảm ơn bạn đã gửi yêu cầu. Đội ngũ của chúng tôi sẽ xem xét và phản hồi trong vòng 72 giờ.

ĐANG XẾP HÀNG XỬ LÝ