NVIDIA Vera Rubin phá vỡ khuôn mẫu GPU với các rack 600 kilowatt và bộ nhớ triệu token

NVIDIA Vera Rubin đẩy các trung tâm dữ liệu lên mức 600kW mỗi rack vào năm 2027, mang lại hiệu suất tăng 7.5 lần đồng thời đòi hỏi sự chuyển đổi hoàn toàn về cơ sở hạ tầng.

Blake Crosley

Sep 25, 2025 13 min read Disclaimer

NVIDIA Vera Rubin phá vỡ khuôn mẫu GPU với các rack 600 kilowatt và bộ nhớ triệu token

CEO NVIDIA Jensen Huang đã tạo ra cú sốc tại GTC 2025, khiến các nhóm hạ tầng phải vội vàng tìm máy tính: nền tảng Vera Rubin sẽ đẩy các rack trung tâm dữ liệu lên 600 kilowatt vào năm 2027.¹ Thông báo này đánh dấu sự thay đổi cơ bản trong cách hoạt động của các trung tâm dữ liệu, buộc phải suy nghĩ lại hoàn toàn về hệ thống cấp điện, làm mát và hạ tầng vật lý vốn không thay đổi về cơ bản trong nhiều thập kỷ.

Nền tảng Vera Rubin đại diện cho bước nhảy vọt đầy tham vọng nhất của NVIDIA. Hệ thống đa thành phần này kết hợp CPU Vera tùy chỉnh, GPU Rubin thế hệ tiếp theo và bộ tăng tốc Rubin CPX (Context Processing eXtension) chuyên biệt, được thiết kế đặc biệt cho khối lượng công việc AI triệu token.² Không giống như các cải tiến từng bước thông thường của các thế hệ GPU, biến thể Vera Rubin NVL144 CPX mang lại hiệu suất AI cao gấp 7.5 lần so với hệ thống Blackwell GB300 hiện tại đồng thời thay đổi cơ bản cách đóng gói, làm mát và triển khai GPU.³

[caption id="" align="alignnone" width="2522"] Thông số kỹ thuật nền tảng NVIDIA Vera Rubin NVL144 hiển thị hiệu suất suy luận FP4 3.6 exaflops và cải thiện 3.3x so với GB300 NVL72, ra mắt nửa cuối năm 2026. [/caption]

Cuộc cách mạng kiến trúc bắt đầu với silicon tùy chỉnh.

[caption id="" align="alignnone" width="2520"] Lộ trình hoàn chỉnh của NVIDIA từ Blackwell đến Feynman, cho thấy sự phát triển từ Oberon đến kiến trúc rack Kyber hỗ trợ mức tiêu thụ điện năng lên đến 600kW. [/caption]

CPU Vera đánh dấu sự khởi hành của NVIDIA khỏi các thiết kế ARM sẵn có, với 88 nhân ARM tùy chỉnh hỗ trợ đa luồng đồng thời, cho phép 176 bộ xử lý logic.⁵ NVIDIA gọi các nhân tùy chỉnh là "Olympus", và thiết kế này mang lại hiệu suất gấp đôi so với CPU Grace được sử dụng trong hệ thống Blackwell hiện tại.⁶ Mỗi CPU Vera kết nối với GPU Rubin thông qua giao diện NVLink C2C 1.8 TB/s, cho phép băng thông chưa từng có giữa các phần tử tính toán.⁷

GPU Rubin tiêu chuẩn vượt giới hạn với 288GB bộ nhớ HBM4 mỗi gói, duy trì cùng dung lượng như Blackwell Ultra B300 nhưng tăng từ 8 TB/s lên 13 TB/s băng thông bộ nhớ.⁸ Mỗi gói Rubin chứa hai die GPU giới hạn reticle, mặc dù NVIDIA đã thay đổi phương pháp đếm—điều Blackwell gọi là một GPU (hai die), Rubin gọi là hai GPU.⁹ Thay đổi này phản ánh sự phức tạp ngày càng tăng của kiến trúc đa die và giúp khách hàng hiểu rõ hơn về tài nguyên tính toán thực tế trong mỗi hệ thống.

Yếu tố sáng tạo nhất đến dưới dạng Rubin CPX, một bộ tăng tốc được thiết kế riêng cho xử lý bối cảnh lớn. Thiết kế nguyên khối cung cấp 30 petaFLOP tính toán NVFP4 với 128GB bộ nhớ GDDR7 tiết kiệm chi phí, được tối ưu hóa đặc biệt cho cơ chế attention trong các mô hình transformer.¹⁰ CPX đạt được khả năng attention nhanh gấp 3 lần so với hệ thống GB300 NVL72, cho phép các mô hình AI xử lý bối cảnh triệu token—tương đương một giờ video hoặc toàn bộ codebase—mà không bị suy giảm hiệu suất.¹¹

Triển khai đòi hỏi đại tu hoàn toàn hạ tầng.

Hệ thống Vera Rubin NVL144 tiêu chuẩn, dự kiến ra mắt vào nửa cuối năm 2026, duy trì khả năng tương thích với hạ tầng GB200/GB300 hiện có, sử dụng kiến trúc rack Oberon quen thuộc.¹² Hệ thống tích hợp 144 die GPU (72 gói), 36 CPU Vera và mang lại 3.6 exaFLOP hiệu suất suy luận FP4—cải thiện 3.3 lần so với Blackwell Ultra.¹³ Mức tiêu thụ điện năng vẫn ở mức có thể quản lý khoảng 120-130kW mỗi rack, tương tự như các triển khai hiện tại.

Biến thể Vera Rubin NVL144 CPX đưa hiệu suất lên cao hơn, tích hợp 144 GPU Rubin CPX cùng với 144 GPU Rubin tiêu chuẩn và 36 CPU Vera để mang lại tám exaFLOP tính toán NVFP4—cải thiện 7.5 lần so với GB300 NVL72—với 100TB bộ nhớ tốc độ cao và 1.7 PB/s băng thông bộ nhớ trong một rack duy nhất.¹⁴

Mọi thứ thay đổi với Rubin Ultra và kiến trúc rack Kyber vào năm 2027. Hệ thống NVL576 nhồi nhét 576 die GPU vào một rack duy nhất, tiêu thụ 600kW điện—gấp năm lần các hệ thống hiện tại.¹⁵ Thiết kế Kyber xoay các blade tính toán 90 độ theo hướng dọc, nhồi nhét bốn pod của 18 blade mỗi pod vào rack.¹⁶ Mỗi blade chứa tám GPU Rubin Ultra cùng với CPU Vera, đạt mật độ dường như không thể chỉ vài năm trước.

[caption id="" align="alignnone" width="2522"] Hệ thống NVIDIA Blackwell hiện tại với 72 GPU cung cấp 1.1 exaflops [/caption]

[caption id="" align="alignnone" width="2524"] Hệ thống NVIDIA Rubin tương lai mở rộng lên 576 GPU và 15 exaflops trong một rack 600kW duy nhất [/caption]

Làm mát các hệ thống này yêu cầu ngâm hoàn toàn trong chất lỏng không có quạt—một sự thay đổi so với hệ thống hiện tại vẫn sử dụng làm mát bằng không khí cho một số thành phần phụ trợ.¹⁷ CoolIT Systems và Accelsius đã chứng minh các giải pháp làm mát có khả năng xử lý rack 250kW với nhiệt độ nước đầu vào 40°C, xác thực con đường công nghệ hướng tới triển khai 600kW.¹⁸ Rack Kyber bao gồm một sidecar riêng cho hạ tầng điện và làm mát, thực tế yêu cầu hai chỗ rack cho mỗi hệ thống 600kW.¹⁹

Sự phát triển kiến trúc điện cho phép tính toán quy mô megawatt.

Chuyển đổi của NVIDIA sang phân phối điện 800 VDC giải quyết các hạn chế vật lý cơ bản của hạ tầng hiện tại. Phân phối 54V trong rack truyền thống sẽ yêu cầu 64U kệ nguồn cho hệ thống quy mô Kyber, không để lại chỗ cho tính toán thực tế.²⁰ Kiến trúc 800V loại bỏ chuyển đổi AC/DC cấp rack, cải thiện hiệu quả end-to-end lên đến 5% và giảm chi phí bảo trì lên đến 70%.²¹

Hạ tầng điện mới hỗ trợ rack từ 100kW đến hơn 1MW, sử dụng cùng một backbone và cung cấp khả năng mở rộng cần thiết cho các thế hệ tương lai.²² Các công ty triển khai Vera Rubin phải lập kế hoạch cho các nâng cấp điện lớn—một rack NVL576 duy nhất tiêu thụ điện nhiều như 400 ngôi nhà thông thường. Các trung tâm dữ liệu lập kế hoạch triển khai năm 2027 nên bắt đầu nâng cấp hạ tầng ngay bây giờ, bao gồm kết nối điện quy mô tiện ích và có thể tạo điện tại chỗ.

Tăng hiệu suất biện minh cho đầu tư hạ tầng.

Biến thể Vera Rubin NVL144 CPX thể hiện tiềm năng của nền tảng với tám exaFLOP tính toán NVFP4, cùng với 100TB bộ nhớ tốc độ cao và 1.7 PB/s băng thông bộ nhớ, tất cả trong một rack duy nhất.²⁴ NVIDIA tuyên bố các tổ chức có thể đạt được lợi tức đầu tư từ 30x đến 50x, tương đương 5 tỷ đô la doanh thu từ đầu tư vốn 100 triệu đô la.²⁵

Những người áp dụng sớm bao gồm Trung tâm Siêu tính toán Leibniz của Đức, đang triển khai siêu máy tính Blue Lion với Vera Rubin để đạt được sức mạnh tính toán gấp 30 lần hệ thống hiện tại.²⁶ Hệ thống Doudna của Lawrence Berkeley National Lab cũng sẽ chạy trên Vera Rubin, kết hợp mô phỏng, dữ liệu và AI thành một nền tảng duy nhất cho tính toán khoa học.²⁷

Chuyên môn của Rubin CPX trong xử lý bối cảnh giải quyết một nút thắt quan trọng trong các hệ thống AI hiện tại. Các công ty như Cursor, Runway và Magic đã khám phá cách CPX có thể tăng tốc trợ lý lập trình và ứng dụng tạo video yêu cầu xử lý hàng triệu token đồng thời.²⁸ Khả năng duy trì toàn bộ codebase hoặc hàng giờ video trong bộ nhớ hoạt động thay đổi cơ bản những gì ứng dụng AI có thể đạt được.

Thách thức hạ tầng tạo cơ hội thị trường.

Bước nhảy lên rack 600kW phơi bày sự thật khắc nghiệt về khả năng trung tâm dữ liệu hiện tại. Hầu hết cơ sở gặp khó khăn với rack 40kW; ngay cả trung tâm dữ liệu AI tiên tiến hiếm khi vượt quá 120kW. Quá trình chuyển đổi yêu cầu không chỉ hệ thống làm mát mới mà thiết kế lại hoàn toàn cơ sở, từ sàn bê tông có khả năng chịu tải trọng lớn đến trạm biến áp điện có kích thước cho hoạt động công nghiệp.

"Câu hỏi vẫn là có bao nhiều cơ sở trung tâm dữ liệu hiện tại sẽ có thể hỗ trợ cấu hình dày đặc như vậy," The Register lưu ý, nhấn mạnh rằng bản chất được xây dựng tùy chỉnh của rack Kyber có nghĩa là các cơ sở cần hạ tầng được xây dựng riêng.²⁹ Các phát triển mới ở các vùng có năng lượng tái tạo hoặc hạt nhân dư thừa—Scandinavia, Quebec và UAE—có thể sẽ dẫn đầu việc áp dụng.³⁰

Thời gian biểu cho ngành thở được nhưng đòi hỏi hành động ngay lập tức. Các tổ chức lập kế hoạch hạ tầng AI cho năm 2027 và sau đó phải đưa ra quyết định ngay bây giờ về vị trí cơ sở, mua sắm điện và kiến trúc làm mát. Thời gian chuẩn bị ba năm phản ánh sự phức tạp của việc triển khai hạ tầng hoạt động ở rìa của những gì vật lý có thể.

Con đường vượt xa Vera Rubin

Lộ trình của NVIDIA mở rộng vượt xa Vera Rubin đến kiến trúc Feynman vào năm 2028, có thể đẩy hướng tới rack 1-megawatt.³¹ CEO Vertiv Giordano Albertazzi cho rằng việc đạt mật độ quy mô MW sẽ yêu cầu "một cuộc cách mạng thêm trong làm mát bằng chất lỏng và thay đổi mô hình về mặt nguồn điện."³² Quỹ đạo dường như không thể tránh khỏi—khối lượng công việc AI đòi hỏi tăng mật độ tính toán theo cấp số nhân, và kinh tế học ủng hộ tập trung hơn là phân tán.

Sự chuyển đổi từ cải tiến từng bước sang thay đổi cách mạng trong hạ tầng GPU phản ánh sự chuyển đổi AI rộng lớn hơn. Giống như các mô hình ngôn ngữ lớn nhảy từ hàng tỷ lên hàng nghìn tỷ tham số, hạ tầng hỗ trợ chúng phải thực hiện những bước nhảy tương tự. Vera Rubin đại diện không chỉ là GPU nhanh hơn mà là sự suy nghĩ lại cơ bản về cách hoạt động của hạ tầng tính toán.

Kết luận

Nền tảng Vera Rubin của NVIDIA buộc ngành trung tâm dữ liệu phải đối mặt với sự thật khó chịu về hạn chế hạ tầng đồng thời cung cấp khả năng tính toán chưa từng có. Các rack 600kW của năm 2027 đại diện cho nhiều hơn chỉ tiêu thụ điện cao hơn—chúng đánh dấu sự chuyển đổi hoàn toàn trong cách xây dựng, làm mát và vận hành hạ tầng AI. Các tổ chức bắt đầu lập kế hoạch ngay bây giờ, hợp tác với các chuyên gia hạ tầng có kinh nghiệm hiểu sự phức tạp của triển khai thế hệ tiếp theo, sẽ được định vị tốt nhất để khai thác khả năng cách mạng mà Vera Rubin cho phép.

Sự ra mắt của nền tảng vào năm 2026-2027 cho ngành thời gian chuẩn bị, nhưng đồng hồ đang tích tắc. Các trung tâm dữ liệu được thiết kế hôm nay phải dự đoán yêu cầu của ngày mai, và Vera Rubin làm rõ rằng ngày mai đòi hỏi sự khởi hành triệt để khỏi tư duy thông thường. Các công ty chấp nhận chuyển đổi này sẽ thúc đẩy thế hệ tiếp theo của những đột phá AI, từ mô hình ngôn ngữ triệu token đến hệ thống tạo video thời gian thực dường như khoa học viễn tưởng ngày nay.

Tài liệu tham khảo

¹ The Register. "Nvidia's Vera Rubin CPU, GPUs chart course for 600kW racks." March 19, 2025. https://www.theregister.com/2025/03/19/nvidia_charts_course_for_600kw.

² NVIDIA Newsroom. "NVIDIA Unveils Rubin CPX: A New Class of GPU Designed for Massive-Context Inference." 2025. https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference.

³ Ibid.

⁴ Data Center Dynamics. "GTC: Nvidia's Jensen Huang, Ian Buck, and Charlie Boyle on the future of data center rack density." March 21, 2025. https://www.datacenterdynamics.com/en/analysis/nvidia-gtc-jensen-huang-data-center-rack-density/.

⁵ TechPowerUp. "NVIDIA Unveils Vera CPU and Rubin Ultra AI GPU, Announces Feynman Architecture." 2025. https://www.techpowerup.com/334334/nvidia-unveils-vera-cpu-and-rubin-ultra-ai-gpu-announces-feynman-architecture.

⁶ CNBC. "Nvidia announces Blackwell Ultra and Vera Rubin AI chips." March 18, 2025. https://www.cnbc.com/2025/03/18/nvidia-announces-blackwell-ultra-and-vera-rubin-ai-chips-.html.

⁷ Yahoo Finance. "Nvidia debuts next-generation Vera Rubin superchip at GTC 2025." March 18, 2025. https://finance.yahoo.com/news/nvidia-debuts-next-generation-vera-rubin-superchip-at-gtc-2025-184305222.html.

⁸ Next Platform. "Nvidia Draws GPU System Roadmap Out To 2028." June 5, 2025. https://www.nextplatform.com/2025/03/19/nvidia-draws-gpu-system-roadmap-out-to-2028/.

⁹ SemiAnalysis. "NVIDIA GTC 2025 – Built For Reasoning, Vera Rubin, Kyber, CPO, Dynamo Inference, Jensen Math, Feynman." August 4, 2025. https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/.

¹⁰ NVIDIA Newsroom. "NVIDIA Unveils Rubin CPX: A New Class of GPU Designed for Massive-Context Inference."

¹¹ Ibid.

¹² Tom's Hardware. "Nvidia announces Rubin GPUs in 2026, Rubin Ultra in 2027, Feynman also added to roadmap." March 18, 2025. https://www.tomshardware.com/pc-components/gpus/nvidia-announces-rubin-gpus-in-2026-rubin-ultra-in-2027-feynam-after.

¹³ The New Stack. "NVIDIA Unveils Next-Gen Rubin and Feynman Architectures, Pushing AI Power Limits." April 14, 2025. https://thenewstack.io/nvidia-unveils-next-gen-rubin-and-feynman-architectures-pushing-ai-power-limits/.

¹⁴ NVIDIA Newsroom. "NVIDIA Unveils Rubin CPX: A New Class of GPU Designed for Massive-Context Inference."

¹⁵ Data Center Dynamics. "Nvidia's Rubin Ultra NVL576 rack expected to be 600kW, coming second half of 2027." March 18, 2025. https://www.datacenterdynamics.com/en/news/nvidias-rubin-ultra-nvl576-rack-expected-to-be-600kw-coming-second-half-of-2027/.

¹⁶ Tom's Hardware. "Nvidia shows off Rubin Ultra with 600,000-Watt Kyber racks and infrastructure, coming in 2027." March 19, 2025. https://www.tomshardware.com/pc-components/gpus/nvidia-shows-off-rubin-ultra-with-600-000-watt-kyber-racks-and-infrastructure-coming-in-2027.

¹⁷ Data Center Dynamics. "GTC: Nvidia's Jensen Huang, Ian Buck, and Charlie Boyle on the future of data center rack density."

¹⁸ Data Center Frontier. "CoolIT and Accelsius Push Data Center Liquid Cooling Limits Amid Soaring Rack Densities." 2025. https://www.datacenterfrontier.com/cooling/article/55281394/coolit-and-accelsius-push-data-center-liquid-cooling-limits-amid-soaring-rack-densities.

¹⁹ Data Center Dynamics. "GTC: Nvidia's Jensen Huang, Ian Buck, and Charlie Boyle on the future of data center rack density."

²⁰ NVIDIA Technical Blog. "NVIDIA 800 VDC Architecture Will Power the Next Generation of AI Factories." May 20, 2025. https://developer.nvidia.com/blog/nvidia-800-v-hvdc-architecture-will-power-the-next-generation-of-ai-factories/.

²¹ Ibid.

²² Ibid.

²⁴ NVIDIA Newsroom. "NVIDIA Unveils Rubin CPX: A New Class of GPU Designed for Massive-Context Inference."

²⁵ Ibid.

²⁶ NVIDIA Blog. "Blue Lion Supercomputer Will Run on NVIDIA Vera Rubin." June 10, 2025. https://blogs.nvidia.com/blog/blue-lion-vera-rubin/.

²⁷ Ibid.

²⁸ NVIDIA Newsroom. "NVIDIA Unveils Rubin CPX: A New Class of GPU Designed for Massive-Context Inference."

²⁹ The Register. "Nvidia's Vera Rubin CPU, GPUs chart course for 600kW racks."

³⁰ Global Data Center Hub. "Nvidia's 600kW Racks Are Here (Is Your Infrastructure Ready?)." March 23, 2025. https://www.globaldatacenterhub.com/p/issue-8-nvidias-600kw-racks-are-hereis.

³¹ TechPowerUp. "NVIDIA Unveils Vera CPU and Rubin Ultra AI GPU, Announces Feynman Architecture."

³² Data Center Dynamics. "GTC: Nvidia's Jensen Huang, Ian Buck, and Charlie Boyle on the future of data center rack density."

Cuộc cách mạng kiến trúc bắt đầu với silicon tùy chỉnh.

Triển khai đòi hỏi đại tu hoàn toàn hạ tầng.

Sự phát triển kiến trúc điện cho phép tính toán quy mô megawatt.

Tăng hiệu suất biện minh cho đầu tư hạ tầng.

Thách thức hạ tầng tạo cơ hội thị trường.

Con đường vượt xa Vera Rubin

Kết luận

Tài liệu tham khảo

You Might Also Like

UPS và Phân Phối Điện cho AI: Thiết Kế Hạ Tầng 2N+1 Có Khả N...

Cải Tạo Trung Tâm Dữ Liệu Cũ Cho AI: Hướng Dẫn Tích Hợp Làm ...

xAI Colossus đạt 2 GW: 555.000 GPU, 18 tỷ USD, cơ sở AI lớn ...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_