Tủ Rack Mật Độ Cao: Thiết Kế 100kW+ Cho Hạ Tầng Trung Tâm Dữ Liệu AI
Cập nhật ngày 11 tháng 12, 2025
Cập nhật tháng 12/2025: Chi phí trung bình một tủ rack AI năm 2025 là 3,9 triệu USD so với 500.000 USD của tủ rack truyền thống—tăng gấp 7 lần. Tủ rack GB200NVL72 đạt 132kW; Blackwell Ultra và Rubin hướng tới 250-900kW với 576 GPU/rack vào 2026-2027. NVIDIA OCP 2025 công bố thiết kế tủ rack 1MW. Tủ Heavy-Duty SmartRack của Eaton hỗ trợ tải tĩnh 5.000 lbs cho AI. Chi phí xây dựng hạ tầng 100kW là 200.000-300.000 USD/rack.
Chi phí trung bình một tủ rack AI sẽ đạt 3,9 triệu USD vào năm 2025, so với 500.000 USD cho tủ rack máy chủ truyền thống.¹ Mức tăng chi phí gấp bảy lần đó phản ánh sự chuyển đổi căn bản trong yêu cầu tủ rack khi GPU vượt ngưỡng 1.000 watt đẩy mật độ công suất rack vượt 100kW hướng tới 1MW.² Các máy chủ AI NVIDIA Blackwell Ultra và Rubin sẽ yêu cầu từ 250 đến 900kW với tối đa 576 GPU mỗi rack vào 2026-2027.³ Hạ tầng tủ rack chứa các hệ thống này phải phát triển tương ứng, với gia cố kết cấu, tích hợp làm mát bằng chất lỏng, và khả năng phân phối điện mà các tủ rack truyền thống chưa bao giờ dự tính.
Thị trường tủ rack trung tâm dữ liệu dự kiến tăng trưởng lên 9,41 tỷ USD vào năm 2033 khi khối lượng công việc AI định hình lại yêu cầu hạ tầng vật lý.⁴ Không giống các trung tâm dữ liệu truyền thống xử lý 10-15kW mỗi rack, các cơ sở AI cần từ 40-250kW mỗi rack để hỗ trợ nhu cầu tính toán machine learning.⁵ Các tổ chức lập kế hoạch hạ tầng AI phải đánh giá thông số tủ rack dựa trên yêu cầu GPU hiện tại và dự kiến thay vì các giả định cũ về mật độ công suất và khả năng chịu tải.
Sự phát triển mật độ công suất đòi hỏi thiết kế tủ rack mới
Sự tăng vọt lên 100kW+ mỗi rack đại diện cho cả tiến hóa và cách mạng trong hạ tầng trung tâm dữ liệu.⁶ Các tủ rack truyền thống được thiết kế cho tải 5-10kW không thể hỗ trợ an toàn yêu cầu công suất máy chủ GPU hiện đại mà không có những thay đổi kiến trúc căn bản.
Phạm vi mật độ hiện tại bao gồm nhiều kịch bản triển khai. Các cụm huấn luyện AI mật độ cao yêu cầu tủ rack 40-60kW. Khối lượng công việc mô hình ngôn ngữ lớn đòi hỏi ít nhất 70kW. Các ứng dụng siêu máy tính cho an ninh quốc gia và nghiên cứu AI tiêu thụ 100kW hoặc hơn.⁷ Xu hướng tiếp tục tăng tốc.
Yêu cầu hệ thống NVIDIA xác định các tiêu chuẩn hạ tầng. Thiết kế tủ rack GB200NVL72 ra mắt năm 2024 đạt mật độ công suất đỉnh 132kW.⁸ Các hệ thống Blackwell Ultra và Rubin tương lai yêu cầu lên đến 900kW với 576 GPU mỗi rack.⁹ Bài phát biểu khai mạc của NVIDIA tại OCP 2025 công bố các tủ rack AI thế hệ tiếp theo đòi hỏi lên đến 1MW.¹⁰
Kiến trúc phân phối điện thích ứng với mật độ tăng. Tập trung hóa chỉnh lưu chuyển đổi AC sang DC gần nguồn hơn, sau đó phân phối DC điện áp cao trực tiếp đến các tủ rack, giảm tổn hao và cải thiện PUE.¹¹ Các hyperscaler bao gồm Meta, Google và Microsoft triển khai phân phối điện áp trung bình lên đến 13,8kV và kiến trúc điện áp DC cao hơn ở 400VDC và 800VDC.¹²
Tác động chi phí rất đáng kể. Xây dựng hạ tầng mới có khả năng 100kW tốn 200.000-300.000 USD mỗi rack nhưng cung cấp dư địa cho tăng trưởng tương lai.¹³ Nâng cấp các cơ sở hiện có lên mật độ 40kW tốn 50.000-100.000 USD mỗi rack.¹⁴ Quy mô đầu tư đòi hỏi lập kế hoạch dung lượng cẩn thận.
Yêu cầu kết cấu cho triển khai mật độ cao
Khả năng chịu tải trọng trở nên quan trọng khi máy chủ GPU vượt quá khối lượng máy chủ truyền thống. Máy chủ AI có mật độ linh kiện cao hơn, tản nhiệt lớn hơn, và phần cứng làm mát bằng chất lỏng mà tủ rack cũ không thể hỗ trợ an toàn.
Khả năng chịu tải tĩnh phải đáp ứng cấu hình đầy tải. Eaton ra mắt tủ Heavy-Duty SmartRack vào tháng 10/2024 dành riêng cho AI, với khả năng chịu tải tĩnh lên đến 5.000 lbs.¹⁵ Độ sâu mở rộng 54 inch đáp ứng các máy chủ AI lớn hơn phổ biến trong triển khai GPU.¹⁶ Các tủ rack tiêu chuẩn được thiết kế cho tải 2.000-3.000 lb cần được đánh giá trước khi triển khai máy chủ AI.
Tải trọng sàn đòi hỏi đánh giá cơ sở. Trọng lượng CDU khi đầy chất lỏng có thể đạt 3 tấn, yêu cầu khả năng chịu tải sàn 800kg/m².¹⁷ Kết hợp với trọng lượng máy chủ và hạ tầng làm mát bằng chất lỏng, tổng tải trọng sàn có thể vượt quá thông số kỹ thuật trung tâm dữ liệu truyền thống.
Độ sâu tủ rack vượt quá kích thước tiêu chuẩn. Máy chủ NVIDIA HGX và các nền tảng tương tự yêu cầu tủ sâu hơn so với tủ rack tiêu chuẩn 42 inch.¹⁸ Lập kế hoạch cho độ sâu mở rộng ảnh hưởng đến khoảng cách hành lang, bố trí cơ sở và đường dây cáp.
Tích hợp quản lý nhiệt ảnh hưởng đến thiết kế kết cấu. Các tủ rack công suất cao tạo ra luồng nhiệt đòi hỏi đường dẫn không khí không bị gián đoạn.¹⁹ NVIDIA khuyến nghị đặt hai máy chủ ở dưới cùng, khoảng trống 3-6U, sau đó hai máy chủ phía trên để tối ưu hóa cấu hình làm mát bằng không khí.²⁰ Bố trí tủ rack ảnh hưởng trực tiếp đến hiệu quả làm mát.
Yêu cầu tích hợp làm mát bằng chất lỏng
Các tủ rack phục vụ khối lượng công việc AI phải đáp ứng hạ tầng làm mát bằng chất lỏng mà các tủ làm mát bằng không khí chưa bao giờ dự tính. Việc tích hợp thêm độ phức tạp vào lựa chọn tủ rack và lập kế hoạch cơ sở.
Hỗ trợ cold plate yêu cầu tích hợp đường ống phân phối. Làm mát trực tiếp đến chip đưa chất làm mát đến nguồn nhiệt CPU và GPU, loại bỏ 30-40kW mỗi rack.²¹ Tủ rack phải cung cấp điểm lắp đặt, đường dẫn và ngăn chặn rò rỉ cho phân phối chất lỏng trong tủ.
Lắp đặt bộ trao đổi nhiệt cửa sau cho phép làm mát lai. Hệ thống RDHx gắn vào mặt sau tủ rack, loại bỏ lên đến 120kW mỗi rack trong các cấu hình mới nhất.²² Thông số kết cấu tủ rack phải hỗ trợ trọng lượng RDHx và kết nối đường ống.
Khả năng tương thích ngâm cho phép mật độ cao nhất. Làm mát ngâm nhúng hệ thống trong chất lỏng điện môi, xử lý 50-100kW đồng thời loại bỏ quạt.²³ Một số triển khai sử dụng bể ngâm quy mô rack thay vì tủ truyền thống, đòi hỏi lập kế hoạch cơ sở khác.
Kiến trúc lai kết hợp các phương pháp làm mát. Thiết kế phổ biến năm 2025 bao gồm 70% làm mát bằng chất lỏng và 30% làm mát bằng không khí, với tủ rack đóng vai trò điểm tích hợp.²⁴ Tủ rack phải đáp ứng đồng thời cả hai phương thức làm mát.
Thông số lưu lượng xác định khả năng làm mát. Tiêu chuẩn ngành 1,2 LPM/kW ở nhiệt độ đầu vào 45°C có nghĩa là tủ rack 85kW yêu cầu CDU và bộ trao đổi nhiệt hỗ trợ lưu lượng 102 LPM với làm mát xuống 45°C.²⁵ Đường ống tủ rack không được hạn chế lưu lượng yêu cầu.
Thông số kỹ thuật OCP Open Rack
Open Compute Project định nghĩa các tiêu chuẩn tủ rack tối ưu hóa cho hiệu quả hyperscale. Yêu cầu khối lượng công việc AI thúc đẩy sự phát triển thông số kỹ thuật liên tục.
Open Rack V3 (ORV3) thiết lập nền tảng. Meta định nghĩa và công bố thông số kỹ thuật cơ bản vào năm 2022 với sự đóng góp từ Google và Rittal.²⁶ Chiều rộng 21 inch vượt quá tiêu chuẩn EIA 19 inch, cho phép tăng đáng kể lưu lượng không khí.²⁷ Thông số kỹ thuật kệ nguồn, bộ chỉnh lưu và pin dự phòng cho phép phân phối điện tích hợp.
Open Rack Wide (ORW) giải quyết AI thế hệ tiếp theo. Meta giới thiệu thông số kỹ thuật ORW tại OCP 2025 như tiêu chuẩn tủ rack rộng gấp đôi mã nguồn mở được tối ưu hóa cho nhu cầu công suất, làm mát và khả năng bảo trì của các hệ thống AI thế hệ tiếp theo.²⁸ Thông số kỹ thuật đại diện cho sự chuyển đổi nền tảng hướng tới thiết kế trung tâm dữ liệu tiêu chuẩn hóa, có khả năng tương tác và mở rộng.²⁹
Thông số kỹ thuật Mt Diablo (Diablo 400) mô tả các sidecar rack nguồn cho cụm AI. Được đồng tác giả bởi Google, Meta và Microsoft, thông số kỹ thuật định nghĩa các rack nguồn tách rời đẩy phân phối điện vượt quá cấu hình 48V truyền thống.³⁰ Delta Electronics ra mắt hệ sinh thái "AI Power Cube" 800VDC được phát triển cùng NVIDIA để cấp nguồn cho các tủ rack AI quy mô 1,1MW.³¹
Thông số kỹ thuật Clemente mô tả các khay tính toán tích hợp NVIDIA GB300 Host Processor Modules vào các form factor cho các trường hợp sử dụng huấn luyện và suy luận AI/ML của Meta.³² Thông số kỹ thuật đại diện cho triển khai đầu tiên sử dụng OCP ORv3 HPR với sidecar rack nguồn.
Triển khai trong ngành chứng minh giá trị thông số kỹ thuật. AMD công bố hệ thống tham chiếu quy mô rack "Helios" được xây dựng trên tiêu chuẩn mở ORW.³³ Việc chuẩn bị Open Rack V3 của Rittal cho làm mát bằng chất lỏng trực tiếp giải quyết tản nhiệt công nghệ điện toán hiệu năng cao và AI.³⁴
Giải pháp từ nhà cung cấp cho triển khai tủ rack AI
Các nhà cung cấp hạ tầng lớn đã ra mắt các sản phẩm tủ rack dành riêng cho AI trong suốt 2024-2025.
Schneider Electric ra mắt tủ NetShelter mật độ cao vào tháng 6/2025 tiếp theo là các hệ thống tủ rack mới lấy cảm hứng từ OCP hỗ trợ kiến trúc MGX của NVIDIA.³⁵ Các sản phẩm tích hợp với danh mục phân phối điện và làm mát của Schneider.
Eaton Heavy-Duty SmartRack nhắm vào triển khai AI với khả năng chịu tải tĩnh 5.000 lb và độ sâu mở rộng 54 inch.³⁶ Các thông số kỹ thuật đáp ứng các máy chủ lớn hơn, nặng hơn phổ biến trong hạ tầng GPU.
Supermicro cung cấp giải pháp làm mát bằng chất lỏng quy mô rack với công suất và làm mát lên đến 100kW mỗi rack, được xác nhận đầy đủ ở cấp độ hệ thống, rack và cụm với thời gian giao hàng được rút ngắn.³⁷ Các giải pháp tích hợp với danh mục máy chủ GPU của Supermicro.
Rittal cung cấp tủ rack tuân thủ OCP ORV3 với chuẩn bị làm mát bằng chất lỏng đáp ứng yêu cầu tản nhiệt công nghệ AI.³⁸ Các sản phẩm hỗ trợ tích hợp làm mát bằng chất lỏng trực tiếp.
Legrand đạt mức tăng doanh thu 24% từ danh mục hạ tầng trung tâm dữ liệu tập trung AI trong nửa đầu 2025, thực hiện bảy thương vụ mua lại bổ sung 500 triệu EUR doanh thu hàng năm.³⁹ Doanh thu trung tâm dữ liệu của công ty dự kiến vượt 2 tỷ EUR vào năm 2025.⁴⁰
Các cân nhắc về hạ tầng mạng
Các cụm AI yêu cầu mật độ hạ tầng cáp quang gấp năm lần so với trung tâm dữ liệu thông thường.⁴¹ Lựa chọn tủ rack phải đáp ứng mật độ cáp mà mạng AI đòi hỏi.
InfiniBand và Ethernet tốc độ cao yêu cầu khả năng định tuyến cáp. Các cụm AI phụ thuộc vào mạng băng thông siêu cao, độ trễ thấp (Ethernet 400Gbps+ hoặc InfiniBand XDR) để đồng bộ GPU giữa các máy chủ.⁴² Kết cấu mạng giống thiết kế siêu máy tính với 4-5 lần nhiều kết nối cáp quang hơn mỗi rack.⁴³
Tích hợp quản lý cáp ảnh hưởng đến lựa chọn tủ rack. Phụ kiện quản lý cáp tiêu chuẩn được thiết kế cho 10-20 cáp mỗi rack không thể đáp ứng hàng trăm kết nối tốc độ cao mà mạng AI yêu cầu. Đánh giá khả năng quản lý cáp của tủ rack trước khi mua sắm.
Định tuyến trên cao so với dưới sàn ảnh hưởng đến vị trí tủ rack. Mật độ cáp AI có thể vượt quá khả năng sàn nâng truyền thống, thúc đẩy việc áp dụng quản lý cáp trên cao. Chiều cao tủ rack phải đáp ứng định tuyến trên cao trong khi duy trì khả năng bảo trì.
Lập kế hoạch cho tăng trưởng mật độ
Các tổ chức triển khai hạ tầng AI nên định cỡ đầu tư tủ rack cho tăng trưởng dự kiến thay vì yêu cầu hiện tại.
Nhận thức lộ trình GPU cung cấp thông tin cho lập kế hoạch dung lượng. Sự tiến triển của NVIDIA từ H100 (700W) đến Blackwell (1000W+) đến Rubin (cao hơn) tiếp tục leo thang mật độ. Tủ rack triển khai cho GPU hiện tại nên đáp ứng yêu cầu công suất thế hệ tiếp theo.
Phân phối điện mô-đun cho phép tăng dung lượng dần dần. PDU mỗi rack so với phân phối busway ảnh hưởng đến cách dung lượng mở rộng. Lập kế hoạch kiến trúc điện song song với lựa chọn tủ rack.
Dự phòng làm mát ngăn ngừa tính toán bị kẹt. Tủ rack có khả năng làm mát bằng chất lỏng ngay cả cho triển khai làm mát bằng không khí ban đầu cho phép chuyển đổi khi mật độ tăng. Chi phí gia tăng chứng minh là nhỏ so với thay thế tủ rack.
Hiệu quả diện tích sàn tích lũy ở quy mô. Tủ rack mật độ cao hơn giảm tổng số tủ rack cho dung lượng tính toán tương đương. Ít tủ rack hơn có nghĩa là ít diện tích sàn hơn, đường cáp ngắn hơn và có thể là cơ sở nhỏ hơn.
Các đội kỹ thuật toàn cầu của Introl triển khai hạ tầng tủ rack mật độ cao cho các cài đặt AI tại 257 địa điểm, từ triển khai máy chủ GPU ban đầu đến các cơ sở 100.000 bộ tăng tốc. Lựa chọn tủ rack ảnh hưởng trực tiếp đến hiệu quả cơ sở và dung lượng cho các thế hệ GPU tương lai.
Nền tảng hạ tầng
Tủ rack đại diện cho nền tảng vật lý cho các khoản đầu tư hạ tầng AI. Tủ chứa 3,9 triệu USD máy chủ GPU và thiết bị mạng phải hỗ trợ an toàn khoản đầu tư đó đồng thời cho phép hạ tầng phân phối điện và làm mát mà các hệ thống đó yêu cầu.