Nền tảng NVIDIA Vera Rubin: Hiệu năng 8 Exaflops và Yêu cầu Hạ tầng

Vera Rubin (2026) mang đến 8 EXAFLOPS—hiệu năng tổng hợp của toàn bộ danh sách TOP500. ~500 tỷ transistor trên TSMC N2, HBM4 với băng thông 13TB/s, NVLink 6 đạt 5TB/s hai chiều. 600kW mỗi rack, TDP 2.000W mỗi...

Blake Crosley

Mar 02, 2026 13 min read Disclaimer

Nền tảng NVIDIA Vera Rubin: Hiệu năng 8 Exaflops và Yêu cầu Hạ tầng

Cập nhật ngày 11 tháng 12, 2025

Cập nhật tháng 12/2025: Vera Rubin (2026) mang đến 8 EXAFLOPS—hiệu năng tổng hợp của toàn bộ danh sách TOP500. ~500 tỷ transistor trên TSMC N2, HBM4 với băng thông 13TB/s, NVLink 6 đạt 5TB/s hai chiều. 600kW mỗi rack, TDP 2.000W mỗi chip. Rubin Ultra (nửa sau 2027) với HBM4e đạt 365TB bộ nhớ trên cấu hình NVL576. Yêu cầu cấp nguồn 48V trực tiếp đến chip.

Tám exaflops sức mạnh tính toán nghe có vẻ trừu tượng cho đến khi bạn nhận ra nó bằng hiệu năng tổng hợp của mọi siêu máy tính trong danh sách TOP500 của Trái Đất, được nén vào hạ tầng vừa với một dãy trung tâm dữ liệu.¹ Nền tảng Vera Rubin của NVIDIA, dự kiến triển khai vào năm 2026, hứa hẹn mang đến chính xác khả năng này thông qua những tiến bộ kiến trúc đột phá khiến các hệ thống mạnh mẽ nhất hiện nay trông như đồ cổ. Các tổ chức lên kế hoạch hạ tầng ngày nay phải tính đến các hệ thống sẽ tiêu thụ tới 600 kilowatt mỗi rack và yêu cầu công nghệ làm mát đẩy ranh giới thương mại.

Nền tảng này được đặt theo tên nhà thiên văn học Vera Rubin, người có những quan sát về vật chất tối đã cách mạng hóa vũ trụ học—một sự tri ân xứng đáng cho kiến trúc hứa hẹn cách mạng hóa khả năng AI.² Jensen Huang tiết lộ thông số kỹ thuật tại GTC 2025: chip được sản xuất trên quy trình 3 nanomet của TSMC (N3P), bộ nhớ HBM4 mang đến băng thông lên tới 13 terabyte mỗi giây, và NVLink thế hệ thứ sáu hỗ trợ giao tiếp GPU-to-GPU đa terabyte mỗi giây.³ Mỗi con số đại diện cho sự tăng gấp đôi hoặc gấp ba khả năng hiện tại, đòi hỏi sự tiến hóa hạ tầng thách thức các giả định cơ bản về thiết kế trung tâm dữ liệu.

Các nhà cung cấp đám mây lớn đã đặt trước dung lượng cho triển khai Vera Rubin bất chấp sự không chắc chắn về thông số cuối cùng. Microsoft cam kết 15 tỷ đô la cho hạ tầng hỗ trợ các nền tảng thế hệ tiếp theo, với cơ sở được thiết kế cho mật độ rack 500kW.⁴ Amazon Web Services xây dựng các vùng mới đặc biệt cho điện toán mật độ cực cao, với trạm biến áp cung cấp 500 megawatt cho các cơ sở đơn lẻ.⁵ Cuộc chạy đua vũ trang hạ tầng tiết lộ một thực tế phũ phàng: các tổ chức chưa chuẩn bị cho yêu cầu của Vera Rubin sẽ thấy mình hoàn toàn bị loại khỏi khả năng AI tiên tiến.

Bước nhảy kiến trúc định nghĩa lại quy mô điện toán

Kiến trúc của Vera Rubin từ bỏ cải tiến dần dần để đổi lấy thiết kế lại mang tính cách mạng. Mỗi chip chứa ước tính 500 tỷ transistor, gần gấp ba 208 tỷ của Blackwell, được kích hoạt bởi quy trình N2 của TSMC đạt mật độ chưa từng có.⁶ Ngân sách transistor cho phép 20.000 tensor core mỗi chip, mỗi core có khả năng thực hiện các phép toán độ chính xác hỗn hợp từ INT4 đến FP64. Triết lý thiết kế chuyển từ tăng tốc đa dụng sang tối ưu hóa đặc thù cho AI, với 80% diện tích die dành riêng cho các đơn vị nhân ma trận.

Kiến trúc bộ nhớ phá vỡ mọi tiền lệ thông qua tích hợp HBM4 mang đến băng thông lên tới 13TB/s mỗi chip. Lộ trình HBM4 của Samsung cho thấy các stack với giao diện 2048-bit chạy ở tốc độ cao, với nền tảng NVL144 đầy đủ đạt 75TB bộ nhớ nhanh.⁷ Mỗi GPU Rubin cung cấp 288GB dung lượng bộ nhớ HBM4, đủ để phục vụ các mô hình 400 tỷ tham số từ bộ nhớ đơn GPU. Riêng hệ thống con bộ nhớ đã tiêu thụ công suất đáng kể, đòi hỏi làm mát tiên tiến chỉ cho quản lý nhiệt DRAM. Rubin Ultra, ra mắt nửa sau 2027, sẽ sử dụng bộ nhớ HBM4e với dung lượng lên tới 365TB trên cấu hình NVL576.

Sự tiến hóa kết nối cho phép điện toán phân tán thực sự ở quy mô chưa từng có. NVLink thế hệ thứ sáu hỗ trợ 200 lane ở tốc độ 25Gbps mỗi lane, mang đến băng thông hai chiều 5TB/s giữa các GPU.⁸ Băng thông cho phép 256 GPU hoạt động như một đơn vị tính toán mạch lạc với độ trễ truy cập bộ nhớ đồng nhất dưới 500 nano giây. Các hình phạt điện toán phân tán truyền thống biến mất khi hệ thống hoạt động giống như một bộ xử lý khổng lồ đơn lẻ hơn là một cụm cluster.

Kiến trúc chiplet nổi lên như chìa khóa cho khả năng sản xuất kinh tế. Các die nguyên khối tiến gần 1.000mm² đối mặt với thách thức năng suất thảm khốc, với tỷ lệ khuyết tật khiến sản xuất không khả thi về mặt kinh tế. Vera Rubin có khả năng sử dụng xếp chồng chiplet 3D với các die tính toán được sản xuất trên N2 và các die IO trên quy trình N4 trưởng thành.⁹ Đóng gói tiên tiến sử dụng công nghệ SoIC của TSMC cho phép 50.000 kết nối mỗi milimet vuông giữa các chiplet, duy trì tính toàn vẹn tín hiệu ở tốc độ đa terabit.¹⁰

Kiến trúc cấp nguồn đòi hỏi tái tưởng tượng hoàn toàn ở mức tiêu thụ chip 2.000 watt. Chuyển đổi nguồn 12V truyền thống tạo ra tổn thất không thể chấp nhận được ở mức dòng điện như vậy. Vera Rubin triển khai cấp nguồn 48V trực tiếp đến chip với điều chỉnh điện áp trên gói.¹¹ Kiến trúc nguồn phân tách của Vicor chứng minh hiệu suất 98% ở tải 2.000W, nhưng yêu cầu làm mát lỏng cho chính các thành phần cấp nguồn.¹² Hệ thống nguồn trở nên phức tạp như kiến trúc tính toán mà nó hỗ trợ.

Yêu cầu hạ tầng vượt quá khả năng hiện tại

Yêu cầu nguồn điện cho triển khai Vera Rubin phá vỡ các giả định thiết kế trung tâm dữ liệu thông thường. Một rack đơn lẻ có thể tiêu thụ tới 600kW liên tục, tương đương gần 500 hộ gia đình Mỹ.¹³ Mật độ nguồn đạt hơn 700kW mỗi mét vuông, gấp 10 lần các triển khai mật độ cao hiện tại. Các cơ sở yêu cầu nguồn cấp điện áp trung bình 13,8kV chuyên dụng với trạm biến áp tại chỗ cung cấp phân phối 4.160V. Hạ tầng điện cho triển khai 100 rack tốn 100 triệu đô la trước khi xem xét phần cứng tính toán.

Làm mát 500kW mỗi rack đẩy vượt xa khả năng làm mát lỏng hiện tại vào lãnh thổ chưa được khám phá. Thông lượng nhiệt ở mức chip vượt quá 500W/cm², tiến gần mật độ nhiệt của buồng đốt động cơ tên lửa.¹⁴ Làm mát lỏng hai pha trở nên bắt buộc, sử dụng các chất lỏng kỹ thuật sôi ở nhiệt độ được kiểm soát chính xác. Các chất lỏng Novec thế hệ tiếp theo của 3M xử lý 1.000W/cm² trong các thử nghiệm phòng thí nghiệm nhưng yêu cầu điều kiện môi trường nguyên sơ khó duy trì trong các trung tâm dữ liệu sản xuất.¹⁵

Làm mát trực tiếp đến chip tiến hóa thành các kiến trúc vi kênh với các tính năng nhỏ hơn sợi tóc người. Nghiên cứu của IBM cho thấy các vi kênh silicon rộng 50 micromet loại bỏ 1kW/cm² với độ tăng nhiệt độ 5°C.¹⁶ Sản xuất các giải pháp làm mát này yêu cầu kỹ thuật chế tạo bán dẫn, khiến bộ làm mát tinh vi như các chip mà chúng làm mát. Mỗi tấm lạnh có giá 10.000-15.000 đô la và yêu cầu bảo trì hàng quý để ngăn tích tụ khoáng chất làm giảm hiệu suất.

Thiết kế cơ sở từ bỏ sàn nâng truyền thống để chuyển sang bản sàn kết cấu hỗ trợ tải trọng 2.000kg/m². Phân phối chất lỏng yêu cầu ống đường kính 12 inch cung cấp 1.000 gallon mỗi phút cho mỗi dãy. Các hệ thống chứa rò rỉ phải xử lý các sự cố thảm khốc có thể giải phóng 5.000 gallon chất làm mát trong vài giây. Chứa thứ cấp làm tăng gấp đôi chi phí xây dựng cơ sở nhưng ngăn ngừa thảm họa môi trường có thể kích hoạt đóng cửa theo quy định.

Hạ tầng mạng mở rộng tỷ lệ thuận với sức mạnh tính toán. Mỗi hệ thống Vera Rubin yêu cầu 16 cổng 800GbE cho kết nối bên ngoài, tổng cộng 12,8Tb/s mỗi hệ thống.¹⁷ Chuyển mạch quang trở nên bắt buộc vì cáp đồng không thể hỗ trợ băng thông yêu cầu qua khoảng cách trung tâm dữ liệu. Các bộ chuyển mạch photonic từ các công ty như Lightmatter cung cấp thời gian chuyển mạch nano giây với mức tiêu thụ điện năng bằng không cho chính fabric chuyển mạch.¹⁸ Riêng mạng đã đại diện cho khoản đầu tư 50 triệu đô la cho một triển khai vừa phải.

Hệ sinh thái phần mềm đòi hỏi tiến hóa căn bản

Các mô hình lập trình được thiết kế cho GPU rời rạc thất bại thảm hại trên kiến trúc thống nhất của Vera Rubin. Các framework truyền thống phân chia công việc trên các thiết bị, giả định các không gian bộ nhớ độc lập và đồng bộ hóa rõ ràng. Các hệ thống 256 GPU mạch lạc của Vera Rubin hoạt động như các thiết bị logic đơn với bộ nhớ ảo thống nhất trải dài 36TB. Các nhà phát triển phải suy nghĩ lại các chiến lược song song hóa, coi nền tảng như một hệ thống NUMA khổng lồ thay vì một cluster phân tán.

Lộ trình CUDA 15.0 của NVIDIA cho thấy những thay đổi API căn bản hỗ trợ điện toán exascale. Cooperative Groups mở rộng để hỗ trợ hàng triệu thread phối hợp trên toàn bộ hệ thống.¹⁹ Unified Memory tiến hóa để xử lý các phân bổ quy mô petabyte với di chuyển trang tự động giữa các tầng tính toán và lưu trữ. Mô hình lập trình trừu tượng hóa độ phức tạp phần cứng nhưng yêu cầu hiểu biết sâu về phân cấp bộ nhớ để đạt hiệu suất tối ưu.

Công nghệ trình biên dịch trở nên quan trọng để khai thác khả năng nền tảng. Các biểu diễn trung gian dựa trên đồ thị nắm bắt cấu trúc ứng dụng, cho phép tối ưu hóa mạnh mẽ trên toàn bộ hệ thống. MLIR (Multi-Level Intermediate Representation) nổi lên như nền tảng cho các trình biên dịch thế hệ tiếp theo tối ưu hóa từ các phép toán toán học cấp cao xuống các lệnh tensor core riêng lẻ.²⁰ Thời gian biên dịch cho các mô hình lớn kéo dài hàng giờ, nhưng mã được tạo đạt 90% hiệu suất đỉnh lý thuyết.

Các nền tảng điều phối container yêu cầu đại tu kiến trúc để quản lý triển khai Vera Rubin. Các trừu tượng Kubernetes bị phá vỡ khi các pod đơn lẻ yêu cầu 256 GPU và ngân sách nguồn 500kW. Các orchestrator mới xuất hiện hiểu các ràng buộc hạ tầng: khả dụng nguồn, dung lượng làm mát, topology mạng, và các miền lỗi. Các quyết định lập lịch xem xét trạng thái nhiệt và điều kiện lưới điện cùng với khả dụng tính toán truyền thống.

Các công cụ gỡ lỗi và profiling đối mặt với độ phức tạp áp đảo. Một hệ thống Vera Rubin đơn lẻ tạo ra 100GB/s dữ liệu đo lường hiệu suất, yêu cầu hạ tầng chuyên dụng chỉ để giám sát.²¹ Các profiler truyền thống không thể xử lý các hệ thống nơi các lần khởi chạy kernel riêng lẻ liên quan đến hàng tỷ thread. Phân tích dựa trên AI trở nên cần thiết để xác định các nút thắt hiệu suất và cơ hội tối ưu hóa trong dòng dữ liệu đo lường khổng lồ. Các nhà phát triển dựa vào học máy để hiểu hành vi hệ thống học máy.

Các mô hình kinh tế thách thức logic đầu tư

Giá dự kiến 10 triệu đô la mỗi hệ thống của Vera Rubin có vẻ khổng lồ cho đến khi so sánh với khả năng được cung cấp. Tám exaflops bằng 1.000 GPU NVIDIA H100 về sức mạnh tính toán thô nhưng mang lại hiệu suất hiệu quả tốt hơn 10 lần thông qua hiệu quả kiến trúc.²² Xây dựng khả năng tương đương với công nghệ hiện tại sẽ tốn 40 triệu đô la và tiêu thụ 5MW điện. Hiệu quả vốn gấp 4 lần và hiệu quả năng lượng gấp 10 lần biến đổi các tính toán tổng chi phí sở hữu.

Chi phí vận hành vượt xa chi phí vốn trong suốt vòng đời hệ thống. Tiêu thụ điện ở mức 500kW tốn 400.000 đô la hàng năm theo giá công nghiệp. Làm mát thêm 100.000 đô la nữa. Cơ sở vật chất, bảo trì và vận hành đóng góp 500.000 đô la hàng năm. Mỗi hệ thống Vera Rubin tốn 1 triệu đô la hàng năm để vận hành, khiến tỷ lệ sử dụng trở nên quan trọng cho khả năng kinh tế. Các tổ chức đạt tỷ lệ sử dụng 80% khấu hao chi phí trên nhiều tính toán hơn, giảm chi phí mỗi phép toán 60%.

Các chiến lược khấu hao đòi hỏi suy nghĩ lại khi tiến hóa công nghệ tăng tốc. Khấu hao ba năm truyền thống giả định giảm giá trị 33% hàng năm, nhưng các hệ thống Vera Rubin có thể duy trì giá trị lâu hơn thông qua tối ưu hóa phần mềm. Các GPU Volta đầu tiên từ năm 2017 vẫn còn khả thi về kinh tế cho các workload cụ thể bảy năm sau.²³ Dung lượng khổng lồ của Vera Rubin gợi ý tuổi thọ hữu ích năm năm, cải thiện lợi nhuận đầu tư đáng kể.

Các mô hình doanh thu phải tiến hóa để hỗ trợ các khoản đầu tư hạ tầng. Huấn luyện các mô hình lớp GPT-5 trên hạ tầng Vera Rubin có thể tốn 100 triệu đô la nhưng hoàn thành trong vài tuần thay vì vài tháng.²⁴ Phí bảo hiểm tốc độ biện minh chi phí cho các tổ chức nơi thời gian ra thị trường quyết định thành công. Giá API cho các mô hình được huấn luyện trên Vera Rubin phải phản ánh chi phí hạ tầng trong khi vẫn cạnh tranh với các mô hình nhỏ hơn được huấn luyện trên phần cứng cũ hơn.

Các cơ chế tài chính thích ứng với quy mô hạ tầng. Cho thuê thiết bị truyền thống thất bại khi các hệ thống riêng lẻ tốn 10 triệu đô la với giá trị còn lại không chắc chắn. Các mô hình mới xuất hiện kết hợp tài chính thiết bị, pow

[Nội dung bị cắt ngắn cho bản dịch]

Nền tảng NVIDIA Vera Rubin: Hiệu năng 8 Exaflops và Yêu cầu Hạ tầng

Bước nhảy kiến trúc định nghĩa lại quy mô điện toán

Yêu cầu hạ tầng vượt quá khả năng hiện tại

Hệ sinh thái phần mềm đòi hỏi tiến hóa căn bản

Các mô hình kinh tế thách thức logic đầu tư

You Might Also Like

Lập Lịch Khối Lượng Công Việc AI: Tối Ưu Hóa Sử Dụng GPU Trê...

Vận hành Bảo mật Hạ tầng AI: Yêu cầu SOC cho Cụm GPU

Kế Hoạch Xây Dựng Hạ Tầng AI 600 Tỷ USD: CapEx của Hyperscal...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_