Hạ tầng vật lý cho GPU 1200W: Yêu cầu về nguồn điện, tản nhiệt và thiết kế rack
Cập nhật ngày 8 tháng 12 năm 2025
Bước nhảy từ 700W lên 1200W về mức tiêu thụ điện năng của GPU không chỉ đơn thuần là mức tăng hơn 70%—nó phá vỡ hoàn toàn mọi giả định đã định hướng thiết kế trung tâm dữ liệu trong thập kỷ qua, đòi hỏi hạ tầng giống với các cơ sở sản xuất công nghiệp hơn là môi trường CNTT truyền thống.¹ B200 và GB300 Blackwell Ultra của NVIDIA hiện yêu cầu 1200-1400W mỗi chip, trong khi nền tảng Vera Rubin sắp tới sẽ đẩy yêu cầu lên cao hơn nữa.² Các tổ chức xây dựng hạ tầng ngày nay phải chuẩn bị cho những GPU tỏa nhiệt tương đương một máy sưởi gia đình, nặng 30 kilogram với bộ tản nhiệt, và yêu cầu hệ thống cấp nguồn vay mượn từ các trạm sạc xe điện.
Cập nhật tháng 12 năm 2025: Kỷ nguyên GPU 1200W đã đến. Hệ thống GB200 (1200W mỗi Superchip) được giao hàng xuyên suốt năm 2025, với GB300 Blackwell Ultra (1400W) hiện đang trong giai đoạn sản xuất. Nền tảng Vera Rubin của NVIDIA, với các mẫu thử nghiệm được giao từ tháng 9 năm 2025, sẽ yêu cầu lên đến 600kW mỗi rack cho cấu hình NVL144—tăng gấp 5 lần so với hệ thống GB200 NVL72 hiện tại. Các tổ chức đã chuẩn bị hạ tầng cho 1200W trong năm 2024 giờ đối mặt với thực tế rằng các chip 2000W+ đang ở chân trời 2027. Các quyết định hạ tầng được ghi nhận ở đây vẫn là nền tảng, nhưng các triển khai hướng tới tương lai nên lên kế hoạch cho mật độ điện năng cao hơn đáng kể.
Thách thức hạ tầng được nhân lên khi mở rộng quy mô. Một rack đơn lẻ với tám GPU 1200W tiêu thụ 10kW chỉ riêng cho tính toán, nhưng thiết bị hỗ trợ đẩy tổng mức tiêu thụ lên 15-18kW mỗi rack.³ Các thiết kế trung tâm dữ liệu mới nhất của Microsoft đã đáp ứng cho các chip 1200W, với các cơ sở giống với nhà máy luyện nhôm hơn là phòng máy chủ.⁴ Việc chuẩn bị đòi hỏi thời gian chờ 18-24 tháng cho việc nâng cấp điện, lắp đặt hệ thống tản nhiệt và gia cố kết cấu với chi phí 5-8 triệu đô la mỗi megawatt trước khi mua một GPU nào.
Những người tiên phong đối mặt với bài học đau đớn về việc đánh giá thấp các yêu cầu hạ tầng. Cerebras triển khai các engine quy mô wafer 23kW của họ nghĩ rằng nguồn điện là thách thức chính, chỉ để phát hiện ra rằng rung động từ các bơm tản nhiệt gây ra lỗi chip.⁵ Siêu máy tính Dojo của Tesla yêu cầu thiết kế lại hoàn toàn cơ sở khi các chip 1000W+ quá nhiệt mặc dù có công suất tản nhiệt dường như đủ.⁶ Mọi tổ chức triển khai GPU thế hệ tiếp theo đều phát hiện các chế độ lỗi mới đòi hỏi cải tạo tốn kém, khiến việc chuẩn bị đúng đắn trở nên quan trọng để tránh những sai lầm hàng triệu đô la.
Kiến trúc cấp nguồn bước vào lãnh thổ mới
Phân phối điện 208V truyền thống trở nên bất khả thi về mặt vật lý ở tải 1200W. Cung cấp 1200W ở 208V yêu cầu 5,8 ampe mỗi pha trên nguồn ba pha, nhưng tính đến 80% giảm định mức theo quy chuẩn điện có nghĩa là mạch 7,2 ampe.⁷ Dòng điện sẽ yêu cầu cáp 6 AWG dày bằng ngón tay cái cho mỗi GPU, tạo ra các bó cáp không thể vật lý vừa trong các rack tiêu chuẩn. Riêng đồng sẽ tốn 500 đô la mỗi GPU về nguyên liệu thô trước chi phí nhân công lắp đặt.
Phân phối điện 480V nổi lên như giải pháp khả thi duy nhất cho các chip 1200W. Ở 480V ba pha, 1200W chỉ yêu cầu 1,5 ampe mỗi pha, có thể quản lý được với dây 12 AWG.⁸ Các trung tâm dữ liệu châu Âu có lợi thế nhờ phân phối 400V tiêu chuẩn, giải thích tại sao nhiều hyperscaler ưu tiên triển khai tại Bắc Âu cho hạ tầng thế hệ tiếp theo. Các cơ sở Bắc Mỹ yêu cầu nâng cấp máy biến áp từ phân phối 208V lên 480V, thêm 500.000 đô la mỗi megawatt cho thiết bị chuyển đổi.⁹
Phân phối điện một chiều loại bỏ nhiều tổn thất chuyển đổi đang gây hại cho hệ thống AC. Chuyển đổi AC-sang-DC truyền thống lãng phí 8-10% điện năng qua tổn thất máy biến áp và bộ chỉnh lưu.¹⁰ Các trung tâm dữ liệu của Google chứng minh phân phối DC 380V đạt hiệu suất 99% từ điện lưới đến chip.¹¹ Đối với GPU 1200W, phân phối DC tiết kiệm 120W mỗi chip chỉ riêng trong tổn thất chuyển đổi. Điện năng tiết kiệm được bằng với yêu cầu tản nhiệt cho nhiệt chuyển đổi, nhân đôi lợi ích hiệu suất.
Thiết kế nguồn cung cấp điện phát triển thành các hệ thống quản lý năng lượng tinh vi. Các PSU thông thường đạt tối đa 2000W với hiệu suất 80 Plus Titanium là 94%.¹² Hỗ trợ tám GPU 1200W yêu cầu nhiều nguồn 3000W+ với dự phòng N+1. Delta Electronics phát triển các kệ nguồn 4000W đặc biệt cho các triển khai GPU mật độ cao, sử dụng transistor GaN để đạt hiệu suất 97%.¹³ Mỗi kệ nguồn có giá 15.000 đô la nhưng tiết kiệm 50.000 đô la hàng năm về tiền điện cho hoạt động liên tục.
Quản lý điện năng nhất thời trở nên quan trọng khi GPU chuyển từ chế độ nghỉ sang tải đầy trong micro giây. Một GPU 1200W chuyển từ 200W chế độ nghỉ sang công suất đầy tạo ra tải bước 1000W làm mất ổn định lưới điện.¹⁴ Các dàn tụ điện làm mượt những chuyển đổi này nhưng yêu cầu kích thước cẩn thận: quá nhỏ và điện áp sụt làm sập hệ thống, quá lớn và chi phí leo thang không cần thiết. Cấp nguồn GPU hiện đại bao gồm các mảng tụ điện 50.000 microfarad có giá 5.000 đô la mỗi rack nhưng ngăn ngừa các lỗi do nguồn điện gây ra.
Tản nhiệt 1200W yêu cầu chất lỏng, không có ngoại lệ
Tản nhiệt bằng không khí trở nên bất khả thi về mặt nhiệt động học cho GPU 1200W bất kể sáng tạo kỹ thuật nào. Loại bỏ 1200W nhiệt bằng không khí yêu cầu 400 CFM với độ tăng nhiệt độ 30°F.¹⁵ Tám GPU cần 3.200 CFM, tạo ra gió 100+ mph trong các rack máy chủ. Riêng công suất quạt sẽ tiêu thụ 500W, thêm nhiệt để loại bỏ. Ngay cả khi luồng khí đạt được, mức độ âm thanh sẽ vượt quá 110 dBA, gây tổn thương thính giác vĩnh viễn trong vài phút.¹⁶
Tản nhiệt chất lỏng trực tiếp đến cold plate trở thành giải pháp khả thi tối thiểu. Direct Liquid Cooling của CoolIT Systems xử lý 1500W mỗi GPU sử dụng các cold plate chuyên dụng với các kênh vi mô nhỏ hơn sợi tóc người.¹⁷ Hệ thống duy trì nhiệt độ chip dưới 80°C sử dụng nước đầu vào 30°C ở tốc độ dòng chảy 2 lít mỗi phút. Kỹ thuật này giống đua xe Formula 1 hơn là CNTT truyền thống, với dung sai đo bằng micromet và điện trở nhiệt bằng phân số độ Celsius mỗi watt.
Tản nhiệt ngâm chìm cung cấp khả năng loại bỏ nhiệt vượt trội cho các triển khai mật độ cực cao. SmartPodX của Submer xử lý 100kW trong 60 feet vuông sử dụng ngâm chìm chất lỏng cách điện.¹⁸ Sự vắng mặt của không khí loại bỏ các điểm nóng và gradient nhiệt gây hại cho tản nhiệt không khí và cold plate. GRC báo cáo GPU 1200W chạy mát hơn 15°C trong ngâm chìm so với tản nhiệt chất lỏng trực tiếp.¹⁹ Công nghệ này yêu cầu thiết kế lại hoàn toàn hạ tầng nhưng cho phép mật độ không thể với các phương pháp khác.
Tản nhiệt hai pha khai thác vật lý chuyển pha để loại bỏ nhiệt tối đa. Chất lỏng Novec của 3M sôi ở 50°C, với sự hóa hơi hấp thụ nhiệt gấp 10 lần so với chất lỏng một pha.²⁰ Intel đã chứng minh tản nhiệt hai pha loại bỏ 2000W từ các chip thử nghiệm trong khi duy trì nhiệt độ mối nối 60°C.²¹ Công nghệ vẫn còn thử nghiệm cho GPU nhưng đại diện cho sự tiến hóa có thể cho các chip 1500W+ trong tương lai. Những người tiên phong phải thiết kế cơ sở với đường nâng cấp hai pha.
Hạ tầng thải nhiệt mở rộng tỷ lệ thuận với công suất GPU. Một cơ sở 10MW với GPU 1200W tạo ra nhiệt tương đương 2.500 ngôi nhà vào mùa đông.²² Tháp giải nhiệt phải xử lý 35.000 gallon mỗi phút lưu lượng nước ngưng. Bộ làm mát khô cho các khu vực khan hiếm nước yêu cầu công suất nhiều hơn 50% và tiêu thụ điện nhiều hơn 20%. Hạ tầng mở rộng ra xa ngoài phòng máy chủ vào các hệ thống cơ khí quy mô công nghiệp có giá 2-3 triệu đô la mỗi megawatt.
Kỹ thuật kết cấu đối mặt với tải trọng khổng lồ
Trọng lượng GPU tăng đáng kể với hệ thống tản nhiệt tích hợp. Một GPU 1200W trần nặng 5kg, nhưng thêm cold plate, manifold và chất làm mát đưa tổng trọng lượng lên 15kg mỗi GPU.²³ Máy chủ tám GPU tiếp cận 200kg khi đầy tải, vượt quá hầu hết định mức sàn nâng là 150kg mỗi mét vuông. Sự tập trung trọng lượng tạo ra tải điểm làm nứt bê tông và uốn cong các thanh đỡ thép theo thời gian.
Rung động từ hệ thống tản nhiệt tạo ra những thách thức kết cấu bất ngờ. Các bơm lưu lượng cao cho tản nhiệt chất lỏng tạo ra rung động ở tần số 50-120 Hz cộng hưởng với kết cấu tòa nhà.²⁴ Cerebras phát hiện rung động bơm gây ra lỗi bộ nhớ GPU thông qua ứng suất cơ học lên các mối hàn.²⁵ Lắp đặt cách ly trở thành bắt buộc, sử dụng các hệ thống lò xo-giảm chấn thêm 10.000 đô la mỗi rack nhưng ngăn ngừa các lỗi do rung động gây ra.
Các cân nhắc địa chấn được nhân lên cho hạ tầng GPU nặng. Quy chuẩn xây dựng California yêu cầu neo cho thiết bị vượt quá 400 pound, nhưng các rack GPU 1200W tiếp cận 2.000 pound khi đầy tải.²⁶ Neo chịu địa chấn phải chịu được gia tốc ngang 1,5g mà không bị lật. Các hệ thống neo có giá 5.000 đô la mỗi rack và yêu cầu phân tích kết cấu để đảm bảo các tấm sàn có thể chịu được tải trọng. Các trung tâm dữ liệu của Nhật Bản sử dụng hệ thống cách ly nền cho phép dịch chuyển ngang 30cm trong động đất.
Phân phối chất lỏng thêm tải thủy tĩnh hiếm khi được xem xét trong thiết kế trung tâm dữ liệu. Các vòng tản nhiệt cho GPU 1200W chứa hơn 500 lít chất làm mát mỗi rack, nặng 500kg ngoài trọng lượng thiết bị.²⁷ Đường ống phải chịu trọng lượng này cộng với lực động từ tốc độ dòng chảy 20+ lít mỗi phút. Một vụ rò rỉ thảm khốc giải phóng đủ chất lỏng để ngập toàn bộ tầng trung tâm dữ liệu. Các hệ thống ngăn chặn thứ cấp trở thành bắt buộc, thêm 20% chi phí xây dựng nhưng ngăn ngừa thảm họa môi trường.
Sàn truy cập yêu cầu thiết kế lại hoàn toàn cho hạ tầng 1200W. Sàn nâng truyền thống 2 feet không thể chịu được trọng lượng thiết bị hoặc chứa cáp và đường ống cần thiết. Các triển khai 1200W hiện đại sử dụng sàn nâng 4 feet với lưới thép thay vì tấm sàn.²⁸ Không gian plenum sâu hơn chứa các ống tản nhiệt 12 inch và các bó cáp khổng lồ. Chi phí xây dựng tăng 40% nhưng cung cấp không gian hạ tầng và khả năng chịu tải cần thiết.
Hạ tầng mạng và cáp mở rộng tương ứng
Mỗi GPU 1200W yêu cầu nhiều kết nối mạng tốc độ cao để tránh trở thành các đảo tính toán cô lập. B200 của NVIDIA hỗ trợ tám cổng 400GbE mỗi GPU cho băng thông tổng hợp 3,2Tb/s.²⁹ Tám GPU cần 64 cáp mạng cộng với dự phòng, tạo ra các bó cáp đường kính 8 inch. Riêng cáp nặng 200kg mỗi rack và có giá 50.000 đô la trong cáp DAC tốc độ cao hoặc 100.000 đô la cho cáp quang chủ động.
Cáp nguồn trở thành một thách thức hạ tầng đáng kể. Mỗi GPU 1200W yêu cầu đường cấp nguồn riêng để ngăn ngừa lỗi dây chuyền. Sử dụng 480V giảm tiết diện cáp, nhưng yêu cầu an toàn bắt buộc bảo vệ mạch riêng lẻ. Một rack với tám GPU cần 24 cáp nguồn (ba pha mỗi GPU) cộng với dây nối đất và trung tính. Hệ thống máng cáp phải chịu 100kg mỗi mét trọng lượng cáp trong khi duy trì khoảng cách đúng giữa cáp nguồn và cáp dữ liệu.
Hạ tầng quang trở thành bắt buộc cho yêu cầu băng thông. Cáp đồng không thể hỗ trợ 400GbE vượt quá 3 mét, buộc phải dùng kết nối quang cho bất kỳ topology có ý nghĩa nào.³⁰ Mỗi transceiver quang tiêu thụ 15W và có giá 3.000 đô la, thêm 1kW điện năng và 200.000 đô la transceiver cho một hệ thống tám GPU kết nối đầy đủ. Hạ tầng quang yêu cầu các công cụ làm sạch chuyên dụng, thiết bị kiểm tra và chuyên môn mà nhiều tổ chức thiếu.
Quản lý cáp ảnh hưởng đến hiệu quả tản nhiệt nhiều hơn hầu hết nhận ra. Định tuyến cáp kém hạn chế luồng khí trong các hệ thống không khí/chất lỏng lai, tạo ra các điểm nóng kích hoạt throttling nhiệt. Quản lý cáp đúng duy trì 40% diện tích mở cho luồng khí trong khi sắp xếp cáp để truy cập bảo trì.³¹ Các hệ thống cáp có cấu trúc sử dụng độ dài đo trước và đường định tuyến xác định nhưng yêu cầu thời gian lắp đặt gấp 2-3 lần. Đầu tư được đền đáp qua việc giảm thời gian bảo trì và cải thiện hiệu quả tản nhiệt.
Mạng quản lý yêu cầu tách biệt khỏi đường dữ liệu để ngăn ngừa tình trạng thiếu control plane. Mỗi GPU 1200W cần kết nối IPMI/Redfish để quản lý out-of-band, yêu cầu thêm switch mạng và cáp.³² Giám sát môi trường thêm hàng trăm cảm biến mỗi rack cho nhiệt độ, độ ẩm, áp suất và phát hiện rò rỉ. Hạ tầng quản lý tạo ra gigabit dữ liệu telemetry mà
[Nội dung bị cắt ngắn để dịch]