Lựa Chọn Nhà Cung Cấp Colocation cho AI: Cơ Sở DGX-Ready và Yêu Cầu Tủ Rack 120kW

Lựa chọn colocation sai dẫn đến 8 triệu USD GPU bị bỏ phí. Chỉ có 47 cơ sở trên toàn cầu đạt tiêu chuẩn NVIDIA DGX-Ready cho tủ rack 120kW. Hướng dẫn lựa chọn.

Lựa Chọn Nhà Cung Cấp Colocation cho AI: Cơ Sở DGX-Ready và Yêu Cầu Tủ Rack 120kW

Lựa Chọn Nhà Cung Cấp Colocation cho AI: Cơ Sở DGX-Ready và Yêu Cầu Tủ Rack 120kW

Cập nhật ngày 8 tháng 12 năm 2025

Cập nhật tháng 12/2025: Tủ rack 120kW hiện là tiêu chuẩn cơ bản, không còn là mục tiêu phấn đấu. NVIDIA GB200 NVL72 hoạt động ở mức 120kW, với Vera Rubin NVL144 nhắm mục tiêu 600kW mỗi tủ rack vào năm 2026. Tỷ lệ áp dụng làm mát bằng chất lỏng đạt 22% các trung tâm dữ liệu (thị trường: 5,52 tỷ USD→15,75 tỷ USD vào năm 2030). Làm mát trực tiếp đến chip chiếm 47% thị phần. Colovore đã huy động được 925 triệu USD cho các cơ sở 200kW/rack. Các yêu cầu DGX-Ready đang phát triển cho hệ thống Blackwell, với các nhà cung cấp đang gấp rút hỗ trợ mật độ 150-200kW như bước đệm hướng tới cơ sở hạ tầng 600kW của Vera Rubin.

Chọn sai nhà cung cấp colocation cho cơ sở hạ tầng AI dẫn đến tắt máy do quá nhiệt, sự cố nguồn điện, và 8 triệu USD đầu tư GPU bị bỏ phí, như một công ty Fortune 500 đã phát hiện khi cơ sở "sẵn sàng cho AI" của nhà cung cấp thực tế không thể làm mát được tủ rack 80kW.¹ Chương trình DGX-Ready của NVIDIA chỉ chứng nhận 47 cơ sở trên toàn cầu đáp ứng các yêu cầu khắt khe của triển khai GPU hiện đại, tạo ra thị trường có lợi cho người bán, nơi các nhà cung cấp đủ điều kiện thu phí cao gấp 3 lần và duy trì danh sách chờ 18 tháng.² Khoảng cách giữa tuyên bố marketing và khả năng thực tế buộc các tổ chức phải đánh giá hàng chục thông số kỹ thuật, từ hiệu chỉnh hệ số công suất đến thông số kỹ thuật gia cố chống động đất, trong khi cạnh tranh để có công suất khan hiếm tại các cơ sở thực sự hỗ trợ mật độ tủ rack 120kW.

Thị trường colocation phân chia thành ba tầng: nhà cung cấp truyền thống đang vật lộn với tủ rack 10kW, cơ sở chuyển tiếp quản lý 40kW một cách khó khăn, và các nhà vận hành hàng đầu đạt 120kW+ thông qua làm mát bằng chất lỏng và cơ sở hạ tầng điện quy mô lớn.³ Mỗi NVIDIA DGX H100 SuperPOD yêu cầu tối thiểu 35kW mỗi tủ rack, với cấu hình tối ưu đạt 120kW khi được lắp đầy đủ mạng và lưu trữ.⁴ Các tổ chức phát hiện rằng 90% cơ sở colocation đơn giản là không thể hỗ trợ cơ sở hạ tầng AI hiện đại bất kể tuyên bố marketing, buộc phải di chuyển đến các cơ sở xây dựng chuyên biệt hoặc nâng cấp tốn kém làm chậm triển khai từ 12-18 tháng.

Cơ sở hạ tầng điện xác định ràng buộc cơ bản

Colocation AI hiện đại đòi hỏi mật độ điện mà các cơ sở truyền thống không thể cung cấp về mặt vật lý. Một tủ rack 120kW đơn lẻ yêu cầu 600 amp ở nguồn ba pha 208V, cần nhiều mạch 225A cho mỗi tủ rack.⁵ Cơ sở hạ tầng điện phải xử lý không chỉ tải trạng thái ổn định mà còn cả biến động hệ số công suất từ khối lượng công việc GPU dao động giữa 0,95 và 0,85 khi cường độ tính toán thay đổi. Các cơ sở được thiết kế cho tải IT ổn định gặp phải méo sóng hài khi GPU chuyển đổi qua các chế độ hoạt động khác nhau.

Dự phòng điện trở nên phức tạp theo cấp số nhân ở mật độ cao. Dự phòng 2N truyền thống làm tăng gấp đôi chi phí cơ sở hạ tầng trong khi cấu hình N+1 có nguy cơ sự cố dây chuyền trong quá trình bảo trì. Các cơ sở DGX-Ready triển khai kiến trúc 2N+1 với các đường dây điện riêng biệt ngăn ngừa điểm đơn lỗi.⁶ Mỗi đường dây điện bao gồm hệ thống UPS chuyển đổi kép trực tuyến duy trì chất lượng điện trong phạm vi biến động điện áp 2% và méo sóng hài tổng 3%. Dự phòng pin phải duy trì tải đầy đủ tối thiểu 15 phút, yêu cầu dung lượng pin 2.400 kWh cho triển khai AI 10MW.

Khả năng cung cấp điện từ lưới điện ràng buộc việc lựa chọn địa điểm hơn bất kỳ yếu tố nào khác. Các thị trường colocation lớn như Northern Virginia và Silicon Valley đối mặt với lệnh cấm điện, với công suất mới không có sẵn cho đến năm 2027.⁷ Các thị trường thứ cấp cung cấp khả năng tiếp cận điện ngay lập tức thu phí cao hơn mặc dù kết nối kém hơn. Các cơ sở Phoenix có điện sẵn có thu phí 500 USD mỗi kW hàng tháng so với 180 USD ở Virginia bị hạn chế điện.⁸ Các tổ chức phải cân bằng giữa khả năng cung cấp điện với yêu cầu độ trễ và các cân nhắc vận hành.

Công suất làm mát xác định mật độ thực tế so với quảng cáo

Các tuyên bố marketing về "hỗ trợ mật độ cao" sụp đổ khi đối mặt với tải nhiệt thực tế. Một tủ rack 120kW tạo ra 409.000 BTU/giờ nhiệt, tương đương với 34 lò sưởi gia đình chạy liên tục.⁹ Làm mát bằng không khí đạt giới hạn vật lý khoảng 30kW mỗi tủ rack ngay cả với ngăn chứa hành lang nóng và luồng khí được tối ưu hóa. Đạt mật độ 120kW yêu cầu làm mát bằng chất lỏng, hoặc bộ trao đổi nhiệt cửa sau hoặc giải pháp trực tiếp đến chip.

Các nhà cung cấp colocation tiếp cận làm mát bằng chất lỏng với mức độ tinh vi khác nhau. Các triển khai cơ bản cung cấp nước lạnh cho thiết bị làm mát do khách hàng cung cấp, chuyển độ phức tạp sang người thuê. Các cơ sở tiên tiến cung cấp dịch vụ làm mát với CDU, ống góp và giám sát tích hợp. Chứng nhận NVIDIA DGX-Ready yêu cầu nhiệt độ nước cấp 25°C với công suất làm mát tối thiểu 500 kW mỗi tủ rack.¹⁰ Các nhà cung cấp phải chứng minh dự phòng làm mát N+1 với chuyển đổi tự động hoàn thành trong vòng 30 giây.

Số giờ làm mát tự nhiên ảnh hưởng đáng kể đến chi phí vận hành. Các cơ sở ở vùng khí hậu phía bắc đạt được hơn 6.000 giờ làm mát tự nhiên hàng năm, giảm chi phí 120.000 USD mỗi MW so với làm mát cơ học.¹¹ Tuy nhiên, khí hậu lạnh đặt ra thách thức xây dựng và có thể thiếu lực lượng lao động có tay nghề. Sự cân bằng tối ưu phụ thuộc vào các mô hình khối lượng công việc cụ thể và yêu cầu kinh doanh. Khối lượng công việc suy luận 24/7 hưởng lợi nhiều hơn từ làm mát tự nhiên so với các công việc đào tạo theo lô có thể chuyển sang các khoảng thời gian mát hơn.

Kết nối mạng cho phép khối lượng công việc AI phân tán

Colocation AI đòi hỏi dung lượng mạng và sự đa dạng chưa từng có. Khối lượng công việc đào tạo tạo ra 400Gbps lưu lượng liên tục giữa các nút phân tán, trong khi phục vụ suy luận đòi hỏi độ trễ dưới mili giây đến người dùng cuối.¹² Các cơ sở DGX-Ready cung cấp kết nối tối thiểu 4x400GbE mỗi tủ rack với độ trễ dưới micro giây trong cơ sở. Các tùy chọn kết nối chéo phải hỗ trợ đồng thời fabric InfiniBand và Ethernet.

Sự đa dạng nhà mạng ngăn ngừa phân vùng mạng làm phân mảnh các công việc đào tạo phân tán. Các cơ sở hàng đầu duy trì kết nối với hơn 20 nhà mạng với các đường cáp quang đa dạng.¹³ Các đường kết nối đám mây đến AWS Direct Connect, Azure ExpressRoute và Google Cloud Interconnect cho phép triển khai lai. Các bước sóng chuyên dụng giữa các cơ sở phân tán địa lý hỗ trợ khôi phục thảm họa và di chuyển khối lượng công việc. Chi phí hàng tháng cho kết nối toàn diện đạt 50.000 USD cho triển khai 10 tủ rack.

Các thỏa thuận peering internet ảnh hưởng đáng kể đến chi phí phục vụ suy luận. Các cơ sở có peering mạnh mẽ tiết kiệm 60-80% chi phí băng thông so với các thỏa thuận transit thuần túy.¹⁴ Các sàn giao dịch peering lớn như Equinix IX cung cấp quyền truy cập trực tiếp vào hàng nghìn mạng. Các mạng phân phối nội dung lưu cache các mô hình được truy cập thường xuyên tại các vị trí biên. Định tuyến thông minh tối ưu hóa lựa chọn đường dẫn dựa trên các thông số độ trễ và chi phí.

Bảo mật và tuân thủ định hình lựa chọn nhà cung cấp

Cơ sở hạ tầng AI chứa tài sản trí tuệ có giá trị đòi hỏi bảo mật toàn diện. Các cơ sở DGX-Ready triển khai kiến trúc phòng thủ theo chiều sâu với nhiều lớp bảo mật.¹⁵ Bảo mật vành đai bao gồm rào chắn chống đâm, lối vào mantrap và bảo vệ có vũ trang 24/7. Kiểm soát truy cập sinh trắc học hạn chế việc vào phòng máy. Các lồng riêng biệt cung cấp cách ly vật lý với mái che ngăn truy cập qua tường. Hệ thống camera duy trì bản ghi 90 ngày với phát hiện bất thường được hỗ trợ bởi AI.

Các chứng nhận tuân thủ xác nhận việc triển khai bảo mật. Chứng thực SOC 2 Type II xác nhận hiệu quả kiểm soát theo thời gian. Chứng nhận ISO 27001 chứng minh quản lý bảo mật có hệ thống. Tuân thủ HIPAA cho phép khối lượng công việc AI chăm sóc sức khỏe. Dịch vụ tài chính yêu cầu các chứng nhận cụ thể như PCI DSS hoặc FISMA tùy thuộc vào loại khối lượng công việc. Mỗi chứng nhận bổ sung thêm chi phí vận hành nhưng mở rộng thị trường có thể tiếp cận.

Bảo mật chuỗi cung ứng ngày càng quan trọng khi giá trị GPU tăng lên. Các cơ sở phải xác minh tính xác thực của phần cứng và duy trì chuỗi lưu ký. Dịch vụ hủy an toàn ngăn ngừa rò rỉ dữ liệu từ thiết bị ngừng hoạt động. Một số nhà cung cấp cung cấp môi trường thực thi đáng tin cậy với các mô-đun bảo mật phần cứng. Các biện pháp bảo mật bổ sung thêm 10-15% vào chi phí colocation cơ bản nhưng ngăn ngừa các vi phạm thảm khốc.

Introl đánh giá các nhà cung cấp colocation trên khu vực phủ sóng toàn cầu của chúng tôi, đã triển khai cơ sở hạ tầng GPU tại hơn 100 cơ sở trên toàn thế giới.¹⁶ Khung đánh giá của chúng tôi xem xét 127 thông số kỹ thuật, xác định các nhà cung cấp thực sự có khả năng hỗ trợ khối lượng công việc AI mật độ cao so với những nhà cung cấp chỉ tuyên bố có khả năng.

Phân bố địa lý ảnh hưởng đến độ trễ và chi phí

Địa lý colocation tác động đến triển khai AI thông qua nhiều vector. Khối lượng công việc đào tạo chịu được độ trễ cao hơn, cho phép đặt tại các vị trí chi phí thấp. Phục vụ suy luận đòi hỏi gần gũi với người dùng, yêu cầu phân bố địa lý. Quy định chủ quyền dữ liệu bắt buộc xử lý trong nước cho một số bộ dữ liệu nhất định. Rủi ro thiên tai ảnh hưởng đến chi phí bảo hiểm và lập kế hoạch liên tục kinh doanh.

Các thị trường chính (Northern Virginia, Silicon Valley, Dallas) cung cấp kết nối vượt trội nhưng đối mặt với các ràng buộc về công suất. Chi phí colocation đạt 600 USD mỗi kW hàng tháng với yêu cầu cam kết 24 tháng.¹⁷ Các thị trường thứ cấp (Phoenix, Atlanta, Chicago) cung cấp công suất sẵn có với giá 300-400 USD mỗi kW. Các thị trường cấp ba (Salt Lake City, Omaha, Columbus) cung cấp giá 200 USD mỗi kW nhưng hỗ trợ hệ sinh thái hạn chế.

Các cân nhắc quốc tế làm phức tạp việc lựa chọn nhà cung cấp. Các cơ sở châu Âu tuân thủ GDPR nhưng chi phí cao hơn 40% so với tương đương ở Mỹ. Các cơ sở châu Á cung cấp sự gần gũi với sản xuất nhưng đối mặt với sự không chắc chắn về quy định. Triển khai đa quốc gia phải điều hướng các tiêu chuẩn điện khác nhau, cách tiếp cận làm mát và thực hành vận hành. Biến động tiền tệ thêm 5-10% sự không chắc chắn vào các hợp đồng quốc tế.

Cấu trúc hợp đồng và điều khoản thương mại

Hợp đồng colocation cho cơ sở hạ tầng AI khác biệt đáng kể so với các thỏa thuận truyền thống:

Cam kết Điện: Hợp đồng quy định mức tiêu thụ điện cam kết với điều khoản mua hoặc trả. Sử dụng vượt mức phải chịu phạt từ 500-1.000 USD mỗi kW.¹⁸ Các nhà cung cấp yêu cầu sử dụng 80% điện trong vòng 6 tháng. Điện không sử dụng không thể thu hồi sau khi đã phân bổ. Đặt trước tăng trưởng đảm bảo công suất tương lai với giá hiện tại.

SLA Làm mát: Đảm bảo nhiệt độ và độ ẩm ngăn ngừa giảm tốc độ do nhiệt. Nhiệt độ nước cấp phải duy trì trong phạm vi 1°C của thông số kỹ thuật. Tốc độ dòng chảy đảm bảo GPM tối thiểu mỗi tủ rack. Thời gian phản hồi cho sự cố làm mát không được vượt quá 15 phút. Phạt đạt 10.000 USD mỗi giờ cho các vi phạm SLA.

Điều khoản Linh hoạt: Khối lượng công việc AI đòi hỏi sự linh hoạt chưa từng có. Quyền mở rộng cho phép tăng trưởng mà không cần di dời. Quyền thu hẹp cho phép giảm quy mô trong thời kỳ thị trường suy thoái. Điều khoản làm mới công nghệ cho phép cập nhật cơ sở hạ tầng. Điều khoản thoát cung cấp các tùy chọn chấm dứt với các hình phạt được xác định.

Mô hình Định giá: Định giá trọn gói đơn giản hóa ngân sách nhưng giảm tính linh hoạt. Định giá theo đồng hồ điều chỉnh chi phí theo mức sử dụng nhưng tạo ra sự không chắc chắn. Định giá dựa trên điện có lợi cho hoạt động hiệu quả. Định giá dựa trên không gian phạt triển khai mật độ cao. Các mô hình lai cân bằng giữa khả năng dự đoán và khuyến khích tối ưu hóa.

Khung đánh giá cho lựa chọn có hệ thống

Đánh giá có hệ thống đảm bảo lựa chọn nhà cung cấp tối ưu:

Chấm điểm Kỹ thuật (trọng số 40%): - Khả năng mật độ điện (kW tối đa mỗi tủ rack) - Công nghệ và công suất làm mát - Các tùy chọn kết nối mạng - Sẵn sàng làm mát bằng chất lỏng - Mức độ dự phòng cơ sở hạ tầng

Chấm điểm Thương mại (trọng số 25%): - Tổng chi phí mỗi kW bao gồm tất cả phí - Điều khoản linh hoạt hợp đồng - Hình phạt và đảm bảo SLA - Tùy chọn đáp ứng tăng trưởng - Chỉ số ổn định tài chính

Chấm điểm Vận hành (trọng số 20%): - Khả năng hỗ trợ từ xa - Tốc độ cung cấp kết nối chéo - Cửa sổ và quy trình bảo trì - Thời gian phản hồi sự cố - Khả năng cổng thông tin khách hàng

Chấm điểm Chiến lược (trọng số 15%): - Sự phù hợp phạm vi địa lý - Chất lượng quan hệ đối tác hệ sinh thái - Sự phù hợp lộ trình đổi mới - Các sáng kiến bền vững - Đánh giá sự phù hợp văn hóa

Các trường hợp thực tế

[Nội dung bị cắt ngắn để dịch]

Yêu cầu báo giá_

Hãy cho chúng tôi biết về dự án của bạn và chúng tôi sẽ phản hồi trong vòng 72 giờ.

> TRUYỀN_TẢI_HOÀN_TẤT

Đã Nhận Yêu cầu_

Cảm ơn bạn đã gửi yêu cầu. Đội ngũ của chúng tôi sẽ xem xét và phản hồi trong vòng 72 giờ.

ĐANG XẾP HÀNG XỬ LÝ