Trainium3 của Amazon tuyên chiến trong cuộc đua chip AI
Cập nhật ngày 11 tháng 12 năm 2025
Cập nhật tháng 12 năm 2025: Trainium3 xuất xưởng trên quy trình TSMC 3nm với 2,52 PFLOPS FP8 mỗi chip, 144GB HBM3e. UltraServer đầy đủ (144 chip) đạt 362 PFLOPS. Anthropic, Decart và Amazon Bedrock đang chạy khối lượng công việc sản xuất. Khách hàng báo cáo giảm 50% chi phí so với các giải pháp GPU thay thế. Trainium4 được công bố cho cuối năm 2026/đầu năm 2027 với hỗ trợ NVIDIA NVLink Fusion cho phép các cụm máy tính không đồng nhất.
AWS ra mắt Trainium3 UltraServers tại re:Invent 2025, và các thông số kỹ thuật đáng được chú ý. Được xây dựng trên quy trình 3nm của TSMC, mỗi chip Trainium3 cung cấp 2,52 petaflops sức mạnh tính toán FP8 với 144GB bộ nhớ HBM3e.¹ Mở rộng lên cấu hình UltraServer đầy đủ với 144 chip, khách hàng có thể truy cập 362 petaflops sức mạnh xử lý AI.
Các con số thể hiện cải thiện hiệu suất 4,4 lần so với Trainium2 với hiệu quả năng lượng tốt hơn 4 lần.² Amazon tuyên bố khách hàng đã đạt được chi phí đào tạo và suy luận thấp hơn 50% so với các giải pháp GPU thay thế.³ Anthropic, công ty đứng sau Claude, chạy khối lượng công việc sản xuất trên silicon mới. Cuộc chiến chip AI giữa các đại gia đám mây vừa leo thang.
Lý do về hiệu suất
AWS thiết kế Trainium3 để thách thức sự thống trị của NVIDIA thông qua kinh tế thuần túy thay vì hiệu suất thuần túy. Chip cung cấp gấp 5 lần token trên mỗi megawatt so với các thế hệ Trainium trước đó, tấn công vào cấu trúc chi phí khiến AI quy mô lớn trở nên đắt đỏ một cách cấm đoán.⁴
Băng thông bộ nhớ đạt 4,9 terabyte mỗi giây, gần gấp 4 lần thế hệ trước.⁵ Các mô hình ngôn ngữ lớn dành phần lớn thời gian di chuyển dữ liệu giữa bộ nhớ và các đơn vị tính toán. Băng thông cao hơn chuyển đổi trực tiếp thành thông lượng suy luận và đào tạo nhanh hơn. AWS tuyên bố độ trễ đào tạo mô hình thấp hơn 4 lần so với Trainium2.
Kiến trúc mạng mở rộng ấn tượng. NeuronSwitch-v1 cung cấp băng thông nhiều hơn 2 lần trong mỗi UltraServer, trong khi mạng Neuron Fabric giảm giao tiếp liên chip xuống dưới 10 micro giây.⁶ EC2 UltraClusters 3.0 kết nối hàng nghìn máy chủ, mở rộng lên 1 triệu chip Trainium3 trong một cụm logic duy nhất. Đào tạo các mô hình tiên phong đòi hỏi chính xác loại quy mô đó.
Xác nhận từ khách hàng
Bằng chứng nằm trong các triển khai sản xuất. Decart đạt suy luận nhanh hơn 4 lần cho video sinh thời gian thực với chi phí bằng một nửa so với GPU.⁷ Karakuri, Metagenomi, NetoAI, Ricoh và Splash Music đều báo cáo giảm 50% chi phí cho khối lượng công việc đào tạo và suy luận. Amazon Bedrock đã phục vụ lưu lượng sản xuất trên hạ tầng Trainium3.
Sự hiện diện của Anthropic trong danh sách khách hàng mang trọng lượng đặc biệt. Công ty hoạt động ở tuyến đầu năng lực AI, đào tạo các mô hình cạnh tranh trực tiếp với OpenAI và Google. Anthropic chọn Trainium3 cho khối lượng công việc sản xuất xác nhận silicon AWS đã sẵn sàng cho doanh nghiệp với các ứng dụng AI đòi hỏi khắt khe nhất.
Lợi thế chi phí tích lũy theo thời gian. Các lần chạy đào tạo trước đây cần vài tháng giờ hoàn thành trong vài tuần.⁸ Chu kỳ lặp nhanh hơn tăng tốc tiến độ nghiên cứu. Chi phí suy luận thấp hơn cho phép triển khai rộng hơn. Các tổ chức trước đây bị loại khỏi thử nghiệm AI do giá cả giờ có thể tham gia với mức giá thấp hơn của AWS.
Lộ trình Trainium4 báo hiệu tham vọng lớn hơn
AWS tiết lộ kế hoạch Trainium4 cùng với ra mắt Trainium3, nhắm mục tiêu sẵn sàng vào cuối năm 2026 hoặc đầu năm 2027.⁹ Lộ trình tiết lộ tham vọng chiến lược vượt ra ngoài cải tiến từng bước.
Trainium4 hứa hẹn cải thiện hiệu suất 6 lần thông qua hỗ trợ FP4 gốc, dung lượng bộ nhớ gấp 2 lần đạt khoảng 288GB, và cải thiện băng thông gấp 4 lần.¹⁰ Những thông số kỹ thuật đó sẽ định vị Trainium4 cạnh tranh với bất cứ thứ gì NVIDIA xuất xưởng trong cùng khung thời gian.
Quan trọng hơn, Trainium4 sẽ hỗ trợ công nghệ kết nối NVLink Fusion của NVIDIA cùng với UALink.¹¹ AWS nhắm đến xây dựng các cụm không đồng nhất kết hợp CPU Graviton tùy chỉnh với XPU Trainium sử dụng kết nối tốc độ cao của NVIDIA. Động thái này thể hiện một sự hòa hoãn nhất định: AWS cạnh tranh với NVIDIA về bộ tăng tốc trong khi tích hợp các tiêu chuẩn kết nối của NVIDIA.
Hỗ trợ NVLink cho thấy AWS mua đủ GPU NVIDIA để đàm phán các thỏa thuận đặc biệt. NVIDIA thường hạn chế NVLink cho các bộ tăng tốc của riêng mình. Việc cấp quyền truy cập cho AWS cho thấy mối quan hệ thực dụng nơi cạnh tranh và hợp tác cùng tồn tại. AWS vẫn là khách hàng đám mây lớn nhất của NVIDIA ngay cả khi đang phát triển silicon cạnh tranh.
Ý nghĩa của cuộc cạnh tranh đối với doanh nghiệp
Ra mắt Trainium3 mang đến cho doanh nghiệp các lựa chọn thay thế thực sự cho hạ tầng AI. Sự thống trị của NVIDIA vẫn tiếp diễn, nhưng AWS giờ cung cấp hiệu suất cạnh tranh với chi phí thấp hơn cho khách hàng sẵn sàng tối ưu hóa cho kiến trúc Trainium.
Yêu cầu tối ưu hóa rất quan trọng. Hệ sinh thái CUDA của NVIDIA đại diện cho hàng thập kỷ đầu tư phần mềm. Các nhà phát triển biết CUDA. Các framework hỗ trợ CUDA một cách tự nhiên. Chuyển sang Trainium đòi hỏi áp dụng Neuron SDK của AWS và có thể viết lại mã quan trọng về hiệu suất. Lợi ích hiệu suất và chi phí phải biện minh cho nỗ lực di chuyển đó.
Đối với khối lượng công việc suy luận, phép tính thường có lợi cho Trainium. Suy luận chạy các mô hình tiêu chuẩn hóa lặp đi lặp lại với các mẫu truy cập bộ nhớ có thể dự đoán. Tối ưu hóa mã suy luận cho Trainium mang lại tiết kiệm chi phí bền vững tích lũy theo quy mô. Các tổ chức chạy hàng triệu yêu cầu suy luận hàng ngày có thể đạt được tiết kiệm đáng kể bằng cách chuyển sang silicon AWS.
Đào tạo đưa ra quyết định phức tạp hơn. Đào tạo các mô hình tiên phong đòi hỏi phần cứng tiên tiến, công cụ đã được thiết lập và độ tin cậy đã được chứng minh. Thành tích và hệ sinh thái của NVIDIA mang lại sự tự tin rằng các cụm GPU sẽ hoàn thành các lần chạy đào tạo thành công. Sự mới mẻ tương đối của Trainium đưa ra rủi ro mà doanh nghiệp có thể muốn tránh cho các công việc đào tạo quan trọng.
Những tác động rộng hơn
Đầu tư silicon AI của Amazon phản ánh một mệnh lệnh chiến lược: giảm phụ thuộc vào một nhà cung cấp duy nhất. Sức mạnh thị trường của NVIDIA cho phép định giá cao cấp. Mỗi đại gia đám mây trả mức giá cao đó đang tài trợ cho ngân sách R&D của NVIDIA, củng cố đối thủ cạnh tranh. Phát triển silicon thay thế phá vỡ động lực đó, ngay cả khi Trainium không bao giờ thay thế hoàn toàn GPU NVIDIA.
Google theo đuổi cùng chiến lược với TPU. Microsoft hợp tác với AMD trong khi được cho là đang phát triển các bộ tăng tốc tùy chỉnh. Các đại gia đám mây cùng nhau sở hữu nguồn lực, quy mô và động lực để thách thức vị trí của NVIDIA. Trainium3 đại diện cho động thái mới nhất của Amazon trong trò chơi dài hạn đó.
Đối với hệ sinh thái AI rộng hơn, cạnh tranh có lợi cho tất cả mọi người. NVIDIA đối mặt áp lực cải thiện tỷ lệ giá-hiệu suất. Khách hàng có được các lựa chọn thay thế và đòn bẩy đàm phán. Đổi mới silicon tăng tốc khi nhiều đối thủ được tài trợ tốt chạy đua để dẫn đầu. Thị trường chip AI tiến hóa từ độc quyền sang cạnh tranh lành mạnh.
Chỉ riêng Trainium3 sẽ không lật đổ NVIDIA. Nhưng kết hợp với TPU của Google, dòng MI của AMD và các giải pháp thay thế mới nổi từ Intel và các startup, áp lực cạnh tranh tăng cường. Hào phòng thủ của NVIDIA vẫn đáng gờm. Các đối thủ vẫn tiếp tục đào bới.
Những điểm chính
Cho kiến trúc sư hạ tầng: - Trainium3 cung cấp 2,52 petaflops FP8 mỗi chip với 144GB HBM3e; UltraServer đầy đủ (144 chip) cung cấp 362 petaflops - Hiệu suất: cải thiện 4,4 lần so với Trainium2, hiệu quả năng lượng tốt hơn 4 lần, gấp 5 lần token trên mỗi megawatt - Băng thông bộ nhớ đạt 4,9TB/s (gần gấp 4 lần trước đó); giao tiếp liên chip dưới 10 micro giây qua Neuron Fabric
Cho đội ngũ tối ưu hóa chi phí: - AWS tuyên bố chi phí đào tạo và suy luận thấp hơn 50% so với các giải pháp GPU thay thế; được xác nhận bởi khối lượng công việc sản xuất của Anthropic - Khối lượng công việc suy luận có lợi cho Trainium: các mô hình tiêu chuẩn hóa với truy cập bộ nhớ có thể dự đoán; tiết kiệm chi phí tích lũy theo quy mô - Đánh đổi: đòi hỏi áp dụng Neuron SDK và có thể viết lại mã; nỗ lực di chuyển phải biện minh cho tiết kiệm
Cho đội ngũ mua sắm: - EC2 UltraClusters 3.0 mở rộng lên 1 triệu chip Trainium3 trong cụm logic duy nhất; đạt quy mô đào tạo mô hình tiên phong - Xác nhận từ khách hàng: Anthropic, Decart (suy luận nhanh hơn 4 lần), Karakuri, Metagenomi, NetoAI, Ricoh, Splash Music đều báo cáo giảm 50% chi phí - Độ phức tạp đào tạo có lợi cho NVIDIA đối với các tổ chức tránh rủi ro; sự mới mẻ tương đối của Trainium đưa ra sự không chắc chắn trong thực thi
Cho hoạch định chiến lược: - Lộ trình Trainium4 (cuối 2026/đầu 2027): hiệu suất gấp 6 lần qua FP4, bộ nhớ gấp 2 lần (~288GB), băng thông gấp 4 lần, hỗ trợ NVLink Fusion - AWS cạnh tranh với NVIDIA về silicon trong khi tích hợp kết nối NVLink của NVIDIA; hòa hoãn cho phép các cụm không đồng nhất - Chiến lược silicon của đại gia đám mây: giảm phụ thuộc nhà cung cấp đơn lẻ; mỗi khoản phí cao trả đi tài trợ R&D NVIDIA củng cố đối thủ
Cho hệ sinh thái rộng hơn: - Cạnh tranh có lợi cho tất cả: NVIDIA đối mặt áp lực giá, khách hàng có được các lựa chọn và đòn bẩy, đổi mới tăng tốc - Áp lực kết hợp từ Google TPU, dòng AMD MI, Intel và các startup tăng cường; hào của NVIDIA đáng gờm nhưng đang bào mòn - AWS vẫn là khách hàng đám mây lớn nhất của NVIDIA ngay cả khi phát triển silicon cạnh tranh; cạnh tranh-hợp tác định nghĩa thị trường
Tài liệu tham khảo
-
Amazon. "Trainium3 UltraServers now available: Enabling customers to train and deploy AI models faster at lower cost." About Amazon, December 2, 2025. https://www.aboutamazon.com/news/aws/trainium-3-ultraserver-faster-ai-training-lower-cost
-
Amazon. "Trainium3 UltraServers now available."
-
Amazon. "Trainium3 UltraServers now available."
-
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks." December 3, 2025. https://www.nextplatform.com/2025/12/03/with-trainium4-aws-will-crank-up-everything-but-the-clocks/
-
Amazon. "Trainium3 UltraServers now available."
-
Amazon. "Trainium3 UltraServers now available."
-
Amazon. "Trainium3 UltraServers now available."
-
Amazon. "Trainium3 UltraServers now available."
-
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."
-
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."
-
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."
- Alt 2:
trainium3-vs-nvidia-gpu-enterprise-ai-costs