การเลือก Colocation Provider สำหรับ AI: โครงสร้าง DGX-Ready และข้อกำหนด Rack 120kW
อัปเดตเมื่อ 8 ธันวาคม 2025
อัปเดตธันวาคม 2025: Rack 120kW เป็นมาตรฐานพื้นฐานแล้ว ไม่ใช่เป้าหมายที่ต้องการบรรลุ NVIDIA GB200 NVL72 ทำงานที่ 120kW โดย Vera Rubin NVL144 มีเป้าหมายที่ 600kW ต่อ rack ภายในปี 2026 การใช้งาน liquid cooling เพิ่มขึ้นถึง 22% ของ data center (ตลาด: $5.52B→$15.75B ภายในปี 2030) Direct-to-chip ครอง 47% ของส่วนแบ่งตลาด Colovore ได้รับเงินทุน $925M สำหรับโครงสร้าง 200kW/rack ข้อกำหนด DGX-Ready กำลังพัฒนาสำหรับระบบ Blackwell โดย provider รีบเร่งสนับสนุน density 150-200kW เป็นก้าวแรกสู่โครงสร้าง 600kW Vera Rubin
การเลือก colocation provider ที่ผิดสำหรับโครงสร้าง AI นำไปสู่การหยุดทำงานจากความร้อน ระบบไฟฟ้าขัดข้อง และการลงทุน GPU ที่ติดค้าง $8 ล้าน ดังที่บริษัท Fortune 500 แห่งหนึ่งค้นพบเมื่อโครงสร้าง "AI-ready" ของ provider ไม่สามารถระบายความร้อน rack 80kW ได้จริง¹ โปรแกรม DGX-Ready ของ NVIDIA รับรองเพียง 47 โครงสร้างทั่วโลกที่ตอบสนองข้อกำหนดสุดขั้วของการใช้งาน GPU สมัยใหม่ สร้างตลาดที่ seller มีอำนาจ โดย qualified provider กำหนดราคาสูงเป็น 3 เท่า และมีรายการรอ 18 เดือน² ช่องว่างระหว่างการอ้างทางการตลาดกับความสามารถจริงบังคับให้องค์กรประเมินพารามิเตอร์ทางเทคนิคหลายสิบตัว จากการแก้ไข power factor ไปจนถึงข้อกำหนด seismic bracing ในขณะที่แข่งขันเพื่อความจุที่หายากในโครงสร้างที่สนับสนุน density ของ rack 120kW ได้จริง
ภูมิทัศน์ colocation แบ่งออกเป็น 3 ระดับ: provider ดั้งเดิมที่ดิ้นรนกับ rack 10kW โครงสร้างช่วงเปลี่ยนผ่านที่จัดการ 40kW ด้วยความยากลำบาก และ operator ชั้นยอดที่บรรลุ 120kW+ ผ่าน liquid cooling และโครงสร้างไฟฟ้าขนาดใหญ่³ NVIDIA DGX H100 SuperPOD แต่ละตัวต้องการ 35kW ต่อ rack ขั้นต่ำ โดยการกำหนดค่าที่เหมาะสมเฉพาะที่เข้าถึง 120kW เมื่อติดตั้ง networking และ storage เต็มที่⁴ องค์กรค้นพบว่า 90% ของโครงสร้าง colocation ไม่สามารถสนับสนุนโครงสร้าง AI สมัยใหม่ได้ไม่ว่าการอ้างทางการตลาดจะเป็นอย่างไร บังคับให้ย้ายไปยังโครงสร้างที่สร้างขึ้นเพื่อจุดประสงค์เฉพาะ หรือการปรับปรุงที่มีราคาแพงซึ่งทำให้การใช้งานล่าช้า 12-18 เดือน
โครงสร้างไฟฟ้าเป็นตัวกำหนดข้อจำกัดพื้นฐาน
Colocation AI สมัยใหม่ต้องการ power density ที่โครงสร้างดั้งเดิมไม่สามารถจ่ายได้ทางกายภาพ Rack 120kW เพียงตัวเดียวต้องการ 600 amps ที่ 208V three-phase power จำเป็นต้องมีวงจร 225A หลายตัวต่อ rack⁵ โครงสร้างไฟฟ้าต้องจัดการไม่เพียงแต่ steady-state load แต่ยังรวมถึงการเปลี่ยนแปลง power factor จาก GPU workload ที่แกว่งระหว่าง 0.95 และ 0.85 เมื่อความเข้มของการคำนวณเปลี่ยนแปลง โครงสร้างที่ออกแบบสำหรับ steady IT load ประสบกับ harmonic distortion เมื่อ GPU วนผ่านโหมดการทำงานที่แตกต่างกน
การสำรอง power กลายเป็นเรื่องซับซ้อนแบบเลขชี้กำลังที่ density สูง การสำรอง 2N แบบดั้งเดิมทำให้ต้นทุนโครงสร้างเพิ่มขึ้นเป็นสองเท่า ขณะที่การกำหนดค่า N+1 เสี่ยงต่อ cascade failure ระหว่างการบำรุงรักษา โครงสร้าง DGX-Ready ใช้สถาปัตยกรรม 2N+1 ด้วย isolated power train ป้องกันจุดผิดพลาดเดียว⁶ power path แต่ละตัวรวมถึงระบบ UPS online double-conversion ที่รักษาคุณภาพไฟฟ้าไว้ภายในการเปลี่ยนแปลงแรงดัน 2% และ total harmonic distortion 3% การสำรองแบตเตอรี่ต้องรักษา full load ไว้ขั้นต่ำ 15 นาที ต้องการ battery capacity 2,400 kWh สำหรับการใช้งาน AI 10MW
ความพร้อมของไฟฟ้าจาก utility จำกัดการเลือกสถานที่มากกว่าปัจจัยอื่นใด ตลาด colocation หลักอย่าง Northern Virginia และ Silicon Valley เผชิญ power moratorium โดยความจุใหม่ไม่พร้อมใช้จนถึงปี 2027⁷ ตลาดรองที่เสนอการเข้าถึง power ทันทีกำหนดราคาพิเศษแม้จะมี connectivity ที่ด้อยกว่า โครงสร้าง Phoenix ที่มี power พร้อมใช้เรียกเก็บ $500 ต่อ kW รายเดือน เทียบกับ $180 ใน Virginia ที่มี power จำกัด⁸ องค์กรต้องสมดุลความพร้อมของ power กับข้อกำหนด latency และการพิจารณาการดำเนินงาน
ความจุระบายความร้อนกำหนด density จริงเทียบกับที่โฆษณา
การอ้างทางการตลาดเรื่อง "การสนับสนุน high-density" ล่มสลายเมื่อเผชิญกับ thermal load จริง Rack 120kW สร้างความร้อน 409,000 BTU/hour เทียบเท่าเตาผิงที่อยู่อาศัย 34 เตาที่ทำงานต่อเนื่อง⁹ การระบายความร้อนด้วยอากาศมีขีดจำกัดทางกายภาพรอบ ๆ 30kW ต่อ rack แม้ด้วย hot-aisle containment และ airflow ที่เหมาะสม การบรรลุ density 120kW ต้องการ liquid cooling ไม่ว่าจะเป็น rear-door heat exchanger หรือโซลูชัน direct-to-chip
Colocation provider เข้าถึง liquid cooling ด้วยความซับซ้อนที่แตกต่างกัน การใช้งานพื้นฐานให้ chilled water กับ cooling equipment ที่ลูกค้าจัดหา โอนความซับซ้อนให้ผู้เช่า โครงสร้างขั้นสูงเสนอ cooling-as-a-service ด้วย CDU, manifold, และการตรวจสอบแบบรวม การรับรอง NVIDIA DGX-Ready ต้องการอุณหภูมิน้ำจ่าย 25°C ด้วยความจุระบายความร้อน 500 kW ต่อ rack ขั้นต่ำ¹⁰ Provider ต้องแสดงการสำรองระบายความร้อน N+1 ด้วยการ failover อัตโนมัติที่เสร็จสิ้นภายใน 30 วินาที
ชั่วโมง free cooling ส่งผลกระทบอย่างมากต่อต้นทุนการดำเนินงาน โครงสร้างในภูมิอากาศเหนือบรรลุ 6,000+ ชั่วโมง free cooling ต่อปี ลดต้นทุน $120,000 ต่อ MW เทียบกับ mechanical cooling¹¹ อย่างไรก็ตาม ภูมิอากาศเย็นมีความท้าทายในการก่อสร้างและอาจขาดแรงงานที่มีทักษะ ความสมดุลที่เหมาะสมขึ้นอยู่กับรูปแบบ workload เฉพาะและข้อกำหนดทางธุรกิจ Inference workload แบบ 24/7 ได้ประโยชน์จาก free cooling มากกว่า batch training job ที่สามารถเปลี่ยนไปยังช่วงเย็นกว่าได้
การเชื่อมต่อเครือข่ายช่วยให้ AI workload แบบกระจายทำงานได้
AI colocation ต้องการความจุและความหลากหลายของเครือข่ายอย่างที่ไม่เคยมีมาก่อน Training workload สร้าง traffic 400Gbps แบบต่อเนื่องระหว่าง distributed node ขณะที่ inference serving ต้องการ latency แบบ sub-millisecond ถึงผู้ใช้ปลายทาง¹² โครงสร้าง DGX-Ready ให้ connectivity 4x400GbE ขั้นต่ำต่อ rack ด้วย latency แบบ sub-microsecond ภายในโครงสร้าง ตัวเลือก cross-connect ต้องสนับสนุน InfiniBand และ Ethernet fabric พร้อมกัน
ความหลากหลายของ carrier ป้องกัน network partition ที่แยก distributed training job โครงสร้างชั้นยอดรักษาการเชื่อมต่อกับ 20+ carrier ด้วย fiber path ที่หลากหลาย¹³ Cloud on-ramp ไปยัง AWS Direct Connect, Azure ExpressRoute, และ Google Cloud Interconnect ช่วยให้มีการใช้งานแบบ hybrid Dedicated wavelength ระหว่างโครงสร้างที่กระจายทางภูมิศาสตร์สนับสนุน disaster recovery และการ migration ของ workload ต้นทุนรายเดือนสำหรับ connectivity ครอบคลุมถึง $50,000 สำหรับการใช้งาน 10-rack
การจัด internet peering ส่งผลกระทบอย่างมากต่อต้นทุน inference serving โครงสร้างที่มี robust peering ประหยัด 60-80% ของต้นทุน bandwidth เทียบกับการจัด pure transit¹⁴ Major peering exchange อย่าง Equinix IX ให้การเข้าถึงเครือข่ายหลายพันแห่งโดยตรง Content delivery network cache model ที่เข้าถึงบ่อยที่ edge location Smart routing เพิ่มประสิทธิภาพการเลือกเส้นทางตาม latency และ cost parameter
ความปลอดภัยและการปฏิบัติตามข้อกำหนดกำหนดรูปการเลือก provider
โครงสร้าง AI บรรจุทรัพย์สินทางปัญญาที่มีค่าต้องการความปลอดภัยครอบคลุม โครงสร้าง DGX-Ready ใช้สถาปัตยกรรม defense-in-depth ด้วยชั้นความปลอดภัยหลายชั้น¹⁵ ความปลอดภัยรอบนอกรวมถึง anti-ram barrier, mantrap entry, และ guard ติดอาวุธตลอด 24/7 ระบบควบคุมการเข้าถึงแบบ biometric จำกัดการเข้า data hall กรง individual ให้การแยกทางกายภาพด้วยการครอบหลังคาป้องกันการเข้าถึงผ่านกำแพง ระบบกล้องรักษาการบันทึก 90 วัน ด้วยการตรวจจับความผิดปกติที่ขับเคลื่อนด้วย AI
การรับรอง compliance ตรวจสอบการใช้งานความปลอดภัย การรับรอง SOC 2 Type II ยืนยันประสิทธิผลของการควบคุมตลอดเวลา การรับรอง ISO 27001 แสดงการจัดการความปลอดภัยแบบระบบ การปฏิบัติตาม HIPAA ช่วยให้มี healthcare AI workload บริการทางการเงินต้องการการรับรองเฉพาะอย่าง PCI DSS หรือ FISMA ขึ้นอยู่กับประเภท workload การรับรองแต่ละอย่างเพิ่ม overhead การดำเนินงานแต่ขยายตลาดที่สามารถเข้าถึงได้
ความปลอดภัยของ supply chain ได้รับความสำคัญเมื่อค่า GPU เพิ่มขึ้น โครงสร้างต้องตรวจสอบความถูกต้องของฮาร์ดแวร์และรักษา chain of custody บริการทำลายที่ปลอดภัยป้องกันการรั่วไหลข้อมูลจาก equipment ที่ปลดประจำการ Provider บางแห่งเสนอ trusted execution environment ด้วย hardware security module มาตรการความปลอดภัยเพิ่มเติมเพิ่ม 10-15% ต่อต้นทุน colocation พื้นฐานแต่ป้องกันการละเมิดร้ายแรง
Introl ประเมิน colocation provider ในพื้นที่ความครอบคลุมทั่วโลก ของเรา โดยได้ใช้งานโครงสร้าง GPU ในโครงสร้างกว่า 100 แห่งทั่วโลก¹⁶ กรอบการประเมินของเราประเมิน technical parameter 127 ตัว ระบุ provider ที่สามารถสนับสนุน high-density AI workload ได้จริงเทียบกับที่เพียงอ้างว่ามีความสามารถ
การกระจายทางภูมิศาสตร์ส่งผลต่อ latency และต้นทุน
ภูมิศาสตร์ colocation ส่งผลกระทบต่อการใช้งาน AI ผ่านหลายเวกเตอร์ Training workload ทนต่อ latency ที่สูงกว่า ช่วยให้วางในสถานที่ต้นทุนต่ำได้ Inference serving ต้องการความใกล้ชิดกับผู้ใช้ ต้องการการกระจายทางภูมิศาสตร์ กฎระเบียบ data sovereignty กำหนดการประมวลผลในประเทศสำหรับ dataset บางอย่าง ความเสี่ยง natural disaster ส่งผลต่อต้นทุนประกันและการวางแผน business continuity
ตลาดหลัก (Northern Virginia, Silicon Valley, Dallas) เสนอ connectivity ที่ดีกว่าแต่เผชิญข้อจำกัดความจุ ต้นทุน colocation ถึง $600 ต่อ kW รายเดือนโดยต้องมีการผูกมัด 24 เดือน¹⁷ ตลาดรอง (Phoenix, Atlanta, Chicago) ให้ความจุที่พร้อมใช้ในราคา $300-400 ต่อ kW ตลาดตติยภูมิ (Salt Lake City, Omaha, Columbus) เสนอราคา $200 ต่อ kW แต่การสนับสนุน ecosystem จำกัด
การพิจารณาระหว่างประเทศทำให้การเลือก provider ซับซ้อน โครงสร้างยุโรปปฏิบัติตาม GDPR แต่มีค่าใช้จ่าย 40% มากกว่า US เทียบเท่า โครงสร้างเอเชียเสนอความใกล้ชิดกับการผลิตแต่เผชิญความไม่แน่นอนด้านกฎระเบียบ การใช้งานหลายประเทศต้องนำทางมาตรฐาน power, วิธีการระบายความร้อน, และการปฏิบัติการดำเนินงานที่แตกต่างกัน การผันผวนของอัตราแลกเปลี่ยนเพิ่มความไม่แน่นอน 5-10% ต่อสัญญาระหว่างประเทศ
โครงสร้างสัญญาและเงื่อนไขการค้า
สัญญา colocation สำหรับโครงสร้าง AI แตกต่างอย่างมากจากการจัดแบบดั้งเดิม:
Power Commitment: สัญญาระบุการใช้ power ที่ผูกมัดด้วยข้อกำหนด take-or-pay การใช้เกินมีค่าปรับ $500-1,000 ต่อ kW¹⁸ Provider ต้องการ power utilization 80% ภายใน 6 เดือน Power ที่ไม่ใช้ไม่สามารถเรียกคืนได้เมื่อจัดสรรแล้ว การสำรองการเติบโตรักษาความจุในอนาคตในราคาปัจจุบัน
Cooling SLA: การรับประกันอุณหภูมิและความชื้นป้องกัน thermal throttling อุณหภูมิน้ำจ่ายต้องอยู่ภายใน 1°C ของข้อกำหนด อัตราการไหลรับประกัน GPM ขั้นต่ำต่อ rack เวลาตอบสนองสำหรับ cooling failure ไม่เกิน 15 นาที ค่าปรับถึง $10,000 ต่อชั่วโมงสำหรับการละเมิด SLA
Flexibility Term: AI workload ต้องการความยืดหยุ่นอย่างที่ไม่เคยมีมาก่อน สิทธิการขยายช่วยให้เติบโตได้โดยไม่ต้องย้าย สิทธิการหดตัวช่วยให้ลดขนาดได้ระหว่างตลาดตกต่ำ ข้อกำหนด technology refresh อนุญาตให้อัปเดตโครงสร้างได้ ข้อกำหนดทางออกให้ตัวเลือกการยกเลิกด้วยค่าปรับที่กำหนด
Pricing Model: ราคาแบบรวมทุกอย่างทำให้การทำงบประมาณง่ายแต่ลดความยืดหยุ่น ราคาแบบมาตรวัดจัดต้นทุนให้สอดคล้องกับการใช้งานแต่สร้างความไม่แน่นอน ราคาตาม power สนับสนุนการดำเนินงานที่มีประสิทธิภาพ ราคาตามพื้นที่ลงโทษการใช้งาน high-density แบบจำลองแบบผสมสมดุลความสามารถในการคาดเดาด้วยแรงจูงใจในการเพิ่มประสิทธิภาพ
กรอบการประเมินสำหรับการเลือกแบบระบบ
การประเมินแบบระบบรับรองการเลือก provider ที่เหมาะสม:
Technical Scoring (40% น้ำหนัก): - ความสามารถ power density (max kW ต่อ rack) - เทคโนโลยีระบายความร้อนและความจุ - ตัวเลือกการเชื่อมต่อเครือข่าย - ความพร้อม liquid cooling - ระดับการสำรองโครงสร้าง
Commercial Scoring (25% น้ำหนัก): - ต้นทุนรวมต่อ kW รวมค่าธรรมเนียมทั้งหมด - เงื่อนไขความยืดหยุ่นของสัญญา - ค่าปรับและการรับประกัน SLA - ตัวเลือกการรองรับการเติบโต - เมตริก financial stability
Operational Scoring (20% น้ำหนัก): - ความสามารถ remote hands - ความเร็วในการจัดหา cross-connect - หน้าต่างการบำรุงรักษาและขั้นตอน - เวลาตอบสนองเหตุการณ์ - ความสามารถ customer portal
Strategic Scoring (15% น้ำหนัก): - การจัดตำแหน่ง geographic coverage - คุณภาพ ecosystem partnership - การจัดตำแหน่ง innovation roadmap - ความคิดริเริ่ม sustainability - การประเมิน cultural fit