xAI Memphis Colossus: โครงสร้างภายในคลัสเตอร์ GPU 100,000 ตัว
อัปเดตเมื่อวันที่ 11 ธันวาคม 2025
อัปเดตเดือนธันวาคม 2025: ปัจจุบัน Colossus ประกอบด้วย GPU H100 150,000 ตัว + H200 50,000 ตัว + GB200 30,000 ตัว—คลัสเตอร์ฝึก AI แบบเชื่อมต่อเดี่ยวที่ใหญ่ที่สุดในโลก สร้างเสร็จใน 122 วัน (เฟสแรก 100K) และขยายเป็นสองเท่าใน 92 วันถัดมา มีแผนขยายเป็น 1 ล้าน GPU ใช้พลังงาน 250MW จากระบบไฟฟ้า Memphis Spectrum-X Ethernet ให้ throughput 95% เทียบกับ 60% บน Ethernet แบบดั้งเดิม
สร้างเสร็จใน 122 วัน คลัสเตอร์ Colossus ของ xAI ได้ติดตั้ง NVIDIA H100 GPU 100,000 ตัวในโรงงานเครื่องใช้ไฟฟ้าเก่าใน Memphis รัฐ Tennessee¹ จากนั้น xAI ได้ขยายระบบเป็น GPU 200,000 ตัวใน 92 วันเพิ่มเติม² ปัจจุบันคลัสเตอร์ประกอบด้วย H100 GPU 150,000 ตัว, H200 GPU 50,000 ตัว และ GB200 GPU 30,000 ตัว ทำให้เป็นคลัสเตอร์ฝึก AI แบบเชื่อมต่อเดี่ยวที่ใหญ่ที่สุดและทำงานได้เต็มรูปแบบในโลก³ xAI มีแผนขยายเป็น 1 ล้าน GPU⁴ โครงการนี้แสดงให้เห็นว่าการติดตั้งโครงสร้างพื้นฐานอย่างเข้มข้นเป็นอย่างไรเมื่อองค์กรให้ความสำคัญกับความเร็วมากกว่าระยะเวลาการวางแผนแบบปกติ
โครงการ Colossus มีบทเรียนสำหรับทุกองค์กรที่กำลังสร้างโครงสร้างพื้นฐาน AI ในระดับใหญ่ การตัดสินใจเกี่ยวกับพลังงาน ระบบระบายความร้อน เครือข่าย และการเลือกสถานที่ เผยให้เห็นว่าข้อจำกัดสามารถเอาชนะได้อย่างไรเมื่อแนวทางดั้งเดิมช้าเกินไป การแลกเปลี่ยนเหล่านี้ยังเผยให้เห็นความเสี่ยงที่การติดตั้งแบบระมัดระวังมากกว่าสามารถหลีกเลี่ยงได้
ระยะเวลาและแนวทางการก่อสร้าง
Musk ได้รับใบเสนอราคาเริ่มต้น 18 ถึง 24 เดือนสำหรับการก่อสร้างศูนย์ข้อมูล⁵ เมื่อปฏิเสธระยะเวลานั้น xAI ได้ค้นพบโรงงาน Electrolux เก่าใน Memphis ซึ่งผู้ผลิตเครื่องใช้ไฟฟ้าได้เปิดในปี 2012 และปิดในปี 2020⁶ โรงงานที่ถูกทิ้งร้างนี้มีพื้นที่คลังสินค้าขนาดใหญ่และพลังงานอุตสาหกรรมเริ่มต้น 15 เมกะวัตต์⁷
Charles Liang CEO ของ Supermicro ยืนยันว่าบริษัทของเขาได้ร่วมมือกับ xAI เพื่อสร้างศูนย์ข้อมูล Colossus ขนาดมหึมาใน 122 วัน⁸ ทั้ง Dell Technologies และ Supermicro เป็นพันธมิตรกับ xAI ในการก่อสร้าง⁹ ระยะเวลาที่กระชั้นต้องการกระบวนการทำงานคู่ขนานในด้านการเตรียมสถานที่ โครงสร้างพื้นฐานด้านพลังงาน ระบบระบายความร้อน และการติดตั้งระบบคอมพิวเตอร์
คลัสเตอร์ GPU 100,000 ตัวใช้เซิร์ฟเวอร์ HGX ที่มี GPU แปดตัวต่อเครื่อง ติดตั้งในแร็ค Supermicro ระบายความร้อนด้วยของเหลวที่มี GPU 64 ตัวต่อแร็ค¹⁰ การติดตั้งทั้งหมดประกอบด้วยแร็ค GPU 1,500 แร็ค¹¹ ความหนาแน่นของแร็คต้องการระบบระบายความร้อนด้วยของเหลวตั้งแต่เริ่มต้น โดยระบบ 4U ระบายความร้อนด้วยของเหลวของ Supermicro ให้การจัดการความร้อน¹²
สามเดือนหลังจากการติดตั้งเริ่มต้น xAI ประกาศขยายเป็น GPU 200,000 ตัวพร้อมแผนขยายต่อเนื่องเป็น 1 ล้าน¹³ การขยายนี้แสดงให้เห็นว่าสถาปัตยกรรมโครงสร้างพื้นฐานสามารถรองรับการเติบโตได้โดยไม่ต้องออกแบบใหม่ทั้งหมด
โครงสร้างพื้นฐานด้านพลังงานในระดับที่ไม่เคยมีมาก่อน
ปัจจุบันสถานที่ Colossus ใช้พลังงานประมาณ 250 เมกะวัตต์ เพิ่มขึ้นจากการกำหนดค่าเริ่มต้น 150 เมกะวัตต์¹⁴ xAI ได้ติดตั้งกังหันก๊าซ 35 ตัวที่สามารถผลิตพลังงาน 420 เมกะวัตต์พร้อมกับระบบแบตเตอรี่ Tesla Megapack¹⁵ แนวทางแบบไฮบริดให้ทั้งพลังงานหลักและความเป็นอิสระจากระบบไฟฟ้า
xAI ออกแบบและสร้างสถานีไฟฟ้าย่อย MLGW แห่งแรกใน 97 วัน ทำสถานีไฟฟ้าย่อย 150 เมกะวัตต์ที่ปกติจะใช้เวลา 2.5 ปีให้เสร็จ¹⁶ การเร่งความเร็วนี้ต้องทำงานร่วมกับ Memphis Light, Gas and Water ในขณะที่ติดตั้งโซลูชันพลังงานชั่วคราวพร้อมกัน
บริษัทได้ติดตั้ง Tesla Megapack 208 ตัวเพื่อจ่ายพลังงานให้ซูเปอร์คอมพิวเตอร์ โดยเริ่มแรกแยกออกจากระบบไฟฟ้า MLGW¹⁷ Megapack เก็บพลังงานไฟฟ้าจำนวนมาก ให้การสำรองข้อมูลระหว่างการหยุดชะงักของระบบไฟฟ้า และทำให้สามารถดำเนินการได้ก่อนที่การเชื่อมต่อสาธารณูปโภคถาวรจะเสร็จสมบูรณ์
Solaris Energy Infrastructure เป็นเจ้าของกองกังหันก๊าซ 600 เมกะวัตต์ โดยประมาณ 400 เมกะวัตต์กำลังให้บริการ xAI¹⁸ xAI คิดเป็น 67% ของยอดสั่งซื้อ 1,700 เมกะวัตต์ของ Solaris รวมเป็น 1,140 เมกะวัตต์¹⁹ Solaris คาดว่าจะมีกังหันที่ทำงานเต็มที่มากกว่า 1.1 กิกะวัตต์สำหรับ xAI ภายในไตรมาส 2 ปี 2027²⁰
การขยาย Colossus 2 ที่ไซต์ Tulane Road รวมถึง NVIDIA GB200 GPU อย่างน้อย 110,000 ตัวที่มีโหลดพลังงานประมาณ 170 เมกะวัตต์²¹ Megapack และกำลังการผลิตกังหันเพิ่มเติมรองรับพื้นที่ที่ขยาย
xAI ได้รับใบอนุญาตสำหรับกังหันเผาก๊าซเพื่อจ่ายพลังงานให้ซูเปอร์คอมพิวเตอร์²² ใบอนุญาตหมดอายุในปี 2027 ซึ่งเมื่อถึงเวลานั้น xAI ตั้งใจที่จะพึ่งพาแหล่งพลังงานหลายแหล่งรวมถึงสถานีไฟฟ้าย่อย MLGW สองแห่งที่ได้รับการสนับสนุนทางการเงินและสร้างขึ้นในวิทยาเขต Colossus²³ xAI มีแผนที่จะเริ่มก่อสร้างฟาร์มโซลาร์ 500 เอเคอร์ใกล้กับไซต์²⁴
ระบบระบายความร้อนและโครงสร้างพื้นฐานด้านน้ำ
ตั้งแต่เริ่มต้น xAI ขนส่งน้ำด้วยรถบรรทุกและหมุนเวียนผ่านระบบวงจรปิดภายในเพื่อระบายความร้อนซูเปอร์คอมพิวเตอร์²⁵ แนวทางที่ไม่ธรรมดานี้ทำให้สามารถดำเนินการได้ก่อนที่โครงสร้างพื้นฐานด้านน้ำถาวรจะเสร็จสมบูรณ์ xAI มุ่งมั่นที่จะสร้างโรงงานรีไซเคิลน้ำเสียมูลค่า 80 ล้านดอลลาร์เพื่อตอบสนองความต้องการน้ำระยะยาว²⁶
บริษัทมีแผนสร้างโรงงานรีไซเคิลน้ำเสียแบบ ceramic membrane bioreactor ที่ใหญ่ที่สุดในโลก²⁷ เมื่อเสร็จสมบูรณ์ โรงงานจะปกป้องน้ำใต้ดินประมาณ 4.745 พันล้านแกลลอน²⁸ หอระบายความร้อน graywater ขนาดใหญ่ที่กำลังก่อสร้างจะส่งน้ำรีไซเคิลที่ระบายความร้อนแล้วเข้าสู่ Colossus จากโรงงาน graywater ใกล้เคียง²⁹
Colossus 2 ใช้แนวทางระบายความร้อนแบบไฮบริด ประมาณครึ่งหนึ่งของการระบายความร้อนมาจากโรงงาน graywater ของ xAI ในขณะที่อีกครึ่งหนึ่งใช้การระบายความร้อนด้วยอากาศ³⁰ ภายในเดือนสิงหาคม 2025 ชิลเลอร์ระบายความร้อนด้วยอากาศ 119 ตัวให้กำลังการระบายความร้อนประมาณ 200 เมกะวัตต์ เพียงพอสำหรับ GB200 NVL72 GPU ประมาณ 110,000 ตัว³¹
ในระหว่างเฟสการก่อสร้างเริ่มต้น xAI เช่าเครื่องกำเนิดไฟฟ้าและประมาณหนึ่งในสี่ของกำลังการระบายความร้อนเคลื่อนที่ของสหรัฐฯ เพื่อเริ่มดำเนินการอย่างรวดเร็ว³² การจัดหาโครงสร้างพื้นฐานชั่วคราวอย่างเข้มข้นทำให้ระยะเวลาที่กระชั้นเป็นไปได้ในขณะที่ระบบถาวรเสร็จสมบูรณ์
เครือข่าย Spectrum-X Ethernet
ไม่เหมือนกับคลัสเตอร์ฝึก AI ส่วนใหญ่ที่ใช้ InfiniBand, Colossus ของ xAI ใช้แพลตฟอร์ม Spectrum-X Ethernet ของ NVIDIA สำหรับเครือข่าย RDMA³³ ทางเลือกนี้แสดงให้เห็นว่า Ethernet สามารถรองรับคลัสเตอร์ฝึก AI ที่ใหญ่ที่สุดได้เมื่อกำหนดค่าอย่างเหมาะสม
Colossus ใช้ Spectrum SN5600 ขนาด 51.2 เทราบิตต่อวินาที ซึ่งมีพอร์ต 800-gigabit Ethernet 64 พอร์ตในฟอร์มแฟกเตอร์ 2U³⁴ โหนดแต่ละตัวใช้ BlueField-3 SuperNIC ของ NVIDIA ที่มีการเชื่อมต่อ 400-gigabit เดียวไปยัง GPU แต่ละตัว³⁵
เครือข่ายบรรลุความล่าช้าของแอปพลิเคชันเป็นศูนย์หรือไม่มีการสูญเสียแพ็กเก็ตเนื่องจากการชนกันของ flow ในทุกสามระดับของ fabric³⁶ ระบบรักษา data throughput 95% ที่เปิดใช้งานโดยการควบคุมความแออัดของ Spectrum-X³⁷ Ethernet มาตรฐานมักให้ throughput เพียง 60% ในระดับนี้เนื่องจากการชนกันของ flow หลายพัน³⁸
เครือข่าย Ethernet ดั้งเดิมประสบปัญหา incast เมื่อ GPU หลายพันตัวสื่อสารพร้อมกัน³⁹ InfiniBand แก้ปัญหานี้โดยดั้งเดิมด้วย Priority Flow Control ในตัวและการจัดการความแออัดระดับฮาร์ดแวร์⁴⁰ Spectrum-X บรรลุผลลัพธ์ที่คล้ายกันโดยใช้ RoCE v2 พร้อมกลไกควบคุมความแออัดที่ปรับปรุงแล้ว⁴¹
แนวทาง Ethernet ให้ประโยชน์ด้านต้นทุนและความยืดหยุ่นเมื่อเทียบกับ InfiniBand ในขณะที่รักษาประสิทธิภาพ คุณสมบัติ Spectrum-X รวมถึง adaptive routing พร้อมเทคโนโลยี Direct Data Placement, การควบคุมความแออัด และการมองเห็น AI fabric ที่ปรับปรุงแล้ว ทำให้ได้ประสิทธิภาพเหมือน InfiniBand บนโครงสร้างพื้นฐาน Ethernet⁴²
การเปรียบเทียบขนาด
Colossus ที่มี GPU 200,000 ตัวเกินซูเปอร์คอมพิวเตอร์หลักอื่นๆ อย่างมาก⁴³ ซูเปอร์คอมพิวเตอร์ AI ระดับ zettascale ของ Oracle มี NVIDIA GPU 131,072 ตัว⁴⁴ El Capitan ของ Lawrence Livermore National Laboratory มี GPU 44,544 ตัว⁴⁵ Frontier ของ Oak Ridge National Laboratory มี GPU 37,632 ตัว⁴⁶
ตามข้อกำหนดของ xAI, Colossus บรรลุ memory bandwidth รวม 194 เพตาไบต์ต่อวินาทีพร้อมความจุเก็บข้อมูลเกิน 1 เอ็กซาไบต์⁴⁷ memory bandwidth ทำให้การดำเนินการร่วมกันที่การฝึก AI ต้องการใน GPU หลายแสนตัวเป็นไปได้
คลัสเตอร์ฝึกแชทบอท Grok ของ xAI และให้การสนับสนุนการคำนวณแก่ X และกิจการอื่นๆ ของ Musk รวมถึง SpaceX⁴⁸ การใช้งานหลายวัตถุประสงค์ทำให้การลงทุนโครงสร้างพื้นฐานคุ้มค่าในหลายสายธุรกิจ
การขยาย Colossus 2
xAI เริ่มโครงการ Colossus 2 เมื่อวันที่ 7 มีนาคม 2025 โดยซื้อคลังสินค้าขนาด 1 ล้านตารางฟุตใน Memphis พร้อมไซต์ที่อยู่ติดกันสองแห่งรวม 100 เอเคอร์⁴⁹ ไซต์ Tulane Road จะเป็นที่ตั้งของกอง GPU ที่ขยาย
การขยายตั้งเป้า GPU 350,000 ตัวพร้อมการติดตั้งแบตเตอรี่ Tesla Megapack ที่ใหญ่ที่สุดในโลกสำหรับพลังงานสำรองระหว่างโหลดระบบไฟฟ้าสูง⁵⁰ ไซต์จะมี Megapack 60 ถึง 70 ตัวพร้อมกับโครงสร้างพื้นฐาน GPU⁵¹
หอการค้า Memphis อ้างว่า xAI ตั้งใจจะขยายเป็น GPU รวม 1 ล้านตัว⁵² การบรรลุระดับนั้นต้องการการพัฒนาโครงสร้างพื้นฐานด้านพลังงานอย่างต่อเนื่องเกินกำลังการผลิตปัจจุบัน 1.1 กิกะวัตต์ที่ Solaris วางแผนสำหรับปี 2027 จะรองรับ GPU พลังงานสูงประมาณครึ่งล้านตัวที่ระดับความหนาแน่นปัจจุบัน
บทเรียนด้านโครงสร้างพื้นฐาน
โครงการ Colossus แสดงให้เห็นแนวทางหลายประการที่เร่งการติดตั้งโครงสร้างพื้นฐาน AI
การนำสถานที่กลับมาใช้ใหม่สามารถลดระยะเวลาได้อย่างมาก การหาสถานที่อุตสาหกรรมที่มีอยู่พร้อมโครงสร้างพื้นฐานด้านพลังงานช่วยลดเวลาการก่อสร้างที่การสร้างใหม่ต้องการ องค์กรที่เข้าถึงสถานที่อุตสาหกรรมที่ปลดประจำการอาจพบโอกาสสำหรับการติดตั้งโครงสร้างพื้นฐาน AI อย่างรวดเร็ว
โครงสร้างพื้นฐานชั่วคราวทำให้เส้นทางคู่ขนานเป็นไปได้ การเช่าเครื่องกำเนิดไฟฟ้า ระบบระบายความร้อนเคลื่อนที่ และการขนส่งน้ำด้วยรถบรรทุกทำให้สามารถเริ่มดำเนินการได้ในขณะที่โครงสร้างพื้นฐานถาวรเสร็จสมบูรณ์ ต้นทุนที่สูงกว่าสำหรับโซลูชันชั่วคราวอาจคุ้มค่าเมื่อเวลาในการดำเนินการกำหนดตำแหน่งการแข่งขัน
Ethernet สามารถรองรับคลัสเตอร์ที่ใหญ่ที่สุดได้ การติดตั้ง Spectrum-X พิสูจน์ว่าไม่จำเป็นต้องใช้ InfiniBand สำหรับการฝึก AI ขนาดใหญ่ องค์กรที่มีความเชี่ยวชาญและโครงสร้างพื้นฐาน Ethernet อาจไม่จำเป็นต้องนำ InfiniBand มาใช้แม้สำหรับการติดตั้งที่ใหญ่ที่สุด
พลังงานยังคงเป็นข้อจำกัดหลัก แม้จะมีโซลูชันที่สร้างสรรค์รวมถึงการจัดเก็บแบตเตอรี่ กังหันก๊าซ และการก่อสร้างสถานีไฟฟ้าย่อยที่เร่ง ความพร้อมของพลังงานจำกัดความเร็วและขนาดของการติดตั้ง องค์กรที่วางแผนคลัสเตอร์ AI ขนาดใหญ่ควรรักษากำลังการผลิตพลังงานก่อน
การแลกเปลี่ยนรวมถึงความท้าทายด้านกฎระเบียบ ปัญหาความสัมพันธ์กับชุมชน และความเสี่ยงทางเทคนิคจากระยะเวลาที่กระชั้น ใบอนุญาตกังหันก๊าซของ xAI หมดอายุในปี 2027 ทำให้เกิดข้อกำหนดการเปลี่ยนผ่าน⁵³ เจ้าหน้าที่ท้องถิ่นแสดงความกังวลเกี่ยวกับการมองเห็นที่จำกัดในการดำเนินงานของ xAI⁵⁴ ความเร็วที่ทำให้ได้เปรียบในการแข่งขันอาจสร้างหนี้ทางเทคนิคที่การติดตั้งที่ช้ากว่าหลีกเลี่ยงได้
อ้างอิงด่วน: ข้อกำหนด Colossus
| ข้อกำหนด | ค่า |
|---|---|
| GPU ทั้งหมด | 200,000+ (150K H100, 50K H200, 30K GB200) |
| เวลาก่อสร้าง | 122 วัน (เฟส 1), 92 วัน (เฟส 2) |
| การใช้พลังงาน | 250 MW ปัจจุบัน |
| โครงสร้างพื้นฐานพลังงาน | กังหันก๊าซ 35 ตัว (420 MW), Tesla Megapack 208 ตัว |
| เครือข่าย | NVIDIA Spectrum-X 800G Ethernet |
| พื้นที่จัดเก็บ | >1 exabyte |
| Memory bandwidth | 194 PB/s |
| การกำหนดค่าแร็ค | 64 GPU ต่อแร็ค, 1,500 แร็ค |
| ระบบระบายความร้อน | ระบายความร้อนด้วยของเหลว + รีไซเคิล graywater |
| เป้าหมายการขยาย | 1 ล้าน GPU |
ประเด็นสำคัญ
สำหรับผู้นำด้านโครงสร้างพื้นฐาน: - ใบเสนอราคา DC แบบดั้งเดิม: 18-24 เดือน; xAI ส่งมอบใน 122 วันโดยใช้การนำสถานที่กลับมาใช้ใหม่ - โครงสร้างพื้นฐานชั่วคราว (เครื่องกำเนิดไฟฟ้าเช่า ระบบระบายความร้อนเคลื่อนที่ น้ำขนส่งด้วยรถบรรทุก) ทำให้เส้นทางคู่ขนานเป็นไปได้ - พลังงานยังคงเป็นข้อจำกัดหลัก—รักษากำลังการผลิตก่อนการจัดซื้อ GPU - Spectrum-X Ethernet พิสูจน์ว่าใช้งานได้ในระดับ GPU 200K ท้าทายความจำเป็นของ InfiniBand
สำหรับทีมสถานที่: - สถานที่อุตสาหกรรมที่ปลดประจำการเสนอโอกาสการติดตั้งอย่างรวดเร็ว - 250 MW ต้องการแหล่งพลังงานหลายแหล่ง—กังหันก๊าซ แบตเตอรี่ สถานีไฟฟ้าย่อย - การรีไซเคิล graywater ตอบสนองความกังวลเรื่องน้ำในระดับใหญ่—โรงงาน 80 ล้านดอลลาร์ปกป้องน้ำใต้ดิน 4.7 พันล้านแกลลอน - ชิลเลอร์ระบายความร้อนด้วยอากาศ 119 ตัวให้กำลังการระบายความร้อน ~200 MW
สำหรับการวางแผนเชิงกลยุทธ์: - การแลกเปลี่ยนระหว่างความเร็วกับความยั่งยืน: ใบอนุญาตกังหันก๊าซหมดอายุปี 2027 - ระยะเวลาที่กระชั้นสร้างหนี้ทางเทคนิคที่การติดตั้งที่ระมัดระวังหลีกเลี่ยงได้ - การใช้งานหลายวัตถุประสงค์ (Grok, X, SpaceX) ทำให้การลงทุนโครงสร้างพื้นฐานคุ้มค่า - เป้าหมาย 1 ล้าน GPU ต้องการ
[เนื้อหาถูกตัดทอนสำหรับการแปล]