xAI Memphis Colossus: โครงสร้างภายในซูเปอร์คอมพิวเตอร์ GPU 100,000 ตัว

xAI สร้างคลัสเตอร์ Colossus GPU 100,000 ตัวใน 122 วัน และขยายเป็น 200K ใน 92 วันถัดมา ใช้พลังงาน 250MW เครือข่าย Spectrum-X Ethernet เจาะลึกซูเปอร์คอมพิวเตอร์ AI ที่ใหญ่ที่สุดในโลก

xAI Memphis Colossus: โครงสร้างภายในซูเปอร์คอมพิวเตอร์ GPU 100,000 ตัว

xAI Memphis Colossus: โครงสร้างภายในคลัสเตอร์ GPU 100,000 ตัว

อัปเดตเมื่อวันที่ 11 ธันวาคม 2025

อัปเดตเดือนธันวาคม 2025: ปัจจุบัน Colossus ประกอบด้วย GPU H100 150,000 ตัว + H200 50,000 ตัว + GB200 30,000 ตัว—คลัสเตอร์ฝึก AI แบบเชื่อมต่อเดี่ยวที่ใหญ่ที่สุดในโลก สร้างเสร็จใน 122 วัน (เฟสแรก 100K) และขยายเป็นสองเท่าใน 92 วันถัดมา มีแผนขยายเป็น 1 ล้าน GPU ใช้พลังงาน 250MW จากระบบไฟฟ้า Memphis Spectrum-X Ethernet ให้ throughput 95% เทียบกับ 60% บน Ethernet แบบดั้งเดิม

สร้างเสร็จใน 122 วัน คลัสเตอร์ Colossus ของ xAI ได้ติดตั้ง NVIDIA H100 GPU 100,000 ตัวในโรงงานเครื่องใช้ไฟฟ้าเก่าใน Memphis รัฐ Tennessee¹ จากนั้น xAI ได้ขยายระบบเป็น GPU 200,000 ตัวใน 92 วันเพิ่มเติม² ปัจจุบันคลัสเตอร์ประกอบด้วย H100 GPU 150,000 ตัว, H200 GPU 50,000 ตัว และ GB200 GPU 30,000 ตัว ทำให้เป็นคลัสเตอร์ฝึก AI แบบเชื่อมต่อเดี่ยวที่ใหญ่ที่สุดและทำงานได้เต็มรูปแบบในโลก³ xAI มีแผนขยายเป็น 1 ล้าน GPU⁴ โครงการนี้แสดงให้เห็นว่าการติดตั้งโครงสร้างพื้นฐานอย่างเข้มข้นเป็นอย่างไรเมื่อองค์กรให้ความสำคัญกับความเร็วมากกว่าระยะเวลาการวางแผนแบบปกติ

โครงการ Colossus มีบทเรียนสำหรับทุกองค์กรที่กำลังสร้างโครงสร้างพื้นฐาน AI ในระดับใหญ่ การตัดสินใจเกี่ยวกับพลังงาน ระบบระบายความร้อน เครือข่าย และการเลือกสถานที่ เผยให้เห็นว่าข้อจำกัดสามารถเอาชนะได้อย่างไรเมื่อแนวทางดั้งเดิมช้าเกินไป การแลกเปลี่ยนเหล่านี้ยังเผยให้เห็นความเสี่ยงที่การติดตั้งแบบระมัดระวังมากกว่าสามารถหลีกเลี่ยงได้

ระยะเวลาและแนวทางการก่อสร้าง

Musk ได้รับใบเสนอราคาเริ่มต้น 18 ถึง 24 เดือนสำหรับการก่อสร้างศูนย์ข้อมูล⁵ เมื่อปฏิเสธระยะเวลานั้น xAI ได้ค้นพบโรงงาน Electrolux เก่าใน Memphis ซึ่งผู้ผลิตเครื่องใช้ไฟฟ้าได้เปิดในปี 2012 และปิดในปี 2020⁶ โรงงานที่ถูกทิ้งร้างนี้มีพื้นที่คลังสินค้าขนาดใหญ่และพลังงานอุตสาหกรรมเริ่มต้น 15 เมกะวัตต์⁷

Charles Liang CEO ของ Supermicro ยืนยันว่าบริษัทของเขาได้ร่วมมือกับ xAI เพื่อสร้างศูนย์ข้อมูล Colossus ขนาดมหึมาใน 122 วัน⁸ ทั้ง Dell Technologies และ Supermicro เป็นพันธมิตรกับ xAI ในการก่อสร้าง⁹ ระยะเวลาที่กระชั้นต้องการกระบวนการทำงานคู่ขนานในด้านการเตรียมสถานที่ โครงสร้างพื้นฐานด้านพลังงาน ระบบระบายความร้อน และการติดตั้งระบบคอมพิวเตอร์

คลัสเตอร์ GPU 100,000 ตัวใช้เซิร์ฟเวอร์ HGX ที่มี GPU แปดตัวต่อเครื่อง ติดตั้งในแร็ค Supermicro ระบายความร้อนด้วยของเหลวที่มี GPU 64 ตัวต่อแร็ค¹⁰ การติดตั้งทั้งหมดประกอบด้วยแร็ค GPU 1,500 แร็ค¹¹ ความหนาแน่นของแร็คต้องการระบบระบายความร้อนด้วยของเหลวตั้งแต่เริ่มต้น โดยระบบ 4U ระบายความร้อนด้วยของเหลวของ Supermicro ให้การจัดการความร้อน¹²

สามเดือนหลังจากการติดตั้งเริ่มต้น xAI ประกาศขยายเป็น GPU 200,000 ตัวพร้อมแผนขยายต่อเนื่องเป็น 1 ล้าน¹³ การขยายนี้แสดงให้เห็นว่าสถาปัตยกรรมโครงสร้างพื้นฐานสามารถรองรับการเติบโตได้โดยไม่ต้องออกแบบใหม่ทั้งหมด

โครงสร้างพื้นฐานด้านพลังงานในระดับที่ไม่เคยมีมาก่อน

ปัจจุบันสถานที่ Colossus ใช้พลังงานประมาณ 250 เมกะวัตต์ เพิ่มขึ้นจากการกำหนดค่าเริ่มต้น 150 เมกะวัตต์¹⁴ xAI ได้ติดตั้งกังหันก๊าซ 35 ตัวที่สามารถผลิตพลังงาน 420 เมกะวัตต์พร้อมกับระบบแบตเตอรี่ Tesla Megapack¹⁵ แนวทางแบบไฮบริดให้ทั้งพลังงานหลักและความเป็นอิสระจากระบบไฟฟ้า

xAI ออกแบบและสร้างสถานีไฟฟ้าย่อย MLGW แห่งแรกใน 97 วัน ทำสถานีไฟฟ้าย่อย 150 เมกะวัตต์ที่ปกติจะใช้เวลา 2.5 ปีให้เสร็จ¹⁶ การเร่งความเร็วนี้ต้องทำงานร่วมกับ Memphis Light, Gas and Water ในขณะที่ติดตั้งโซลูชันพลังงานชั่วคราวพร้อมกัน

บริษัทได้ติดตั้ง Tesla Megapack 208 ตัวเพื่อจ่ายพลังงานให้ซูเปอร์คอมพิวเตอร์ โดยเริ่มแรกแยกออกจากระบบไฟฟ้า MLGW¹⁷ Megapack เก็บพลังงานไฟฟ้าจำนวนมาก ให้การสำรองข้อมูลระหว่างการหยุดชะงักของระบบไฟฟ้า และทำให้สามารถดำเนินการได้ก่อนที่การเชื่อมต่อสาธารณูปโภคถาวรจะเสร็จสมบูรณ์

Solaris Energy Infrastructure เป็นเจ้าของกองกังหันก๊าซ 600 เมกะวัตต์ โดยประมาณ 400 เมกะวัตต์กำลังให้บริการ xAI¹⁸ xAI คิดเป็น 67% ของยอดสั่งซื้อ 1,700 เมกะวัตต์ของ Solaris รวมเป็น 1,140 เมกะวัตต์¹⁹ Solaris คาดว่าจะมีกังหันที่ทำงานเต็มที่มากกว่า 1.1 กิกะวัตต์สำหรับ xAI ภายในไตรมาส 2 ปี 2027²⁰

การขยาย Colossus 2 ที่ไซต์ Tulane Road รวมถึง NVIDIA GB200 GPU อย่างน้อย 110,000 ตัวที่มีโหลดพลังงานประมาณ 170 เมกะวัตต์²¹ Megapack และกำลังการผลิตกังหันเพิ่มเติมรองรับพื้นที่ที่ขยาย

xAI ได้รับใบอนุญาตสำหรับกังหันเผาก๊าซเพื่อจ่ายพลังงานให้ซูเปอร์คอมพิวเตอร์²² ใบอนุญาตหมดอายุในปี 2027 ซึ่งเมื่อถึงเวลานั้น xAI ตั้งใจที่จะพึ่งพาแหล่งพลังงานหลายแหล่งรวมถึงสถานีไฟฟ้าย่อย MLGW สองแห่งที่ได้รับการสนับสนุนทางการเงินและสร้างขึ้นในวิทยาเขต Colossus²³ xAI มีแผนที่จะเริ่มก่อสร้างฟาร์มโซลาร์ 500 เอเคอร์ใกล้กับไซต์²⁴

ระบบระบายความร้อนและโครงสร้างพื้นฐานด้านน้ำ

ตั้งแต่เริ่มต้น xAI ขนส่งน้ำด้วยรถบรรทุกและหมุนเวียนผ่านระบบวงจรปิดภายในเพื่อระบายความร้อนซูเปอร์คอมพิวเตอร์²⁵ แนวทางที่ไม่ธรรมดานี้ทำให้สามารถดำเนินการได้ก่อนที่โครงสร้างพื้นฐานด้านน้ำถาวรจะเสร็จสมบูรณ์ xAI มุ่งมั่นที่จะสร้างโรงงานรีไซเคิลน้ำเสียมูลค่า 80 ล้านดอลลาร์เพื่อตอบสนองความต้องการน้ำระยะยาว²⁶

บริษัทมีแผนสร้างโรงงานรีไซเคิลน้ำเสียแบบ ceramic membrane bioreactor ที่ใหญ่ที่สุดในโลก²⁷ เมื่อเสร็จสมบูรณ์ โรงงานจะปกป้องน้ำใต้ดินประมาณ 4.745 พันล้านแกลลอน²⁸ หอระบายความร้อน graywater ขนาดใหญ่ที่กำลังก่อสร้างจะส่งน้ำรีไซเคิลที่ระบายความร้อนแล้วเข้าสู่ Colossus จากโรงงาน graywater ใกล้เคียง²⁹

Colossus 2 ใช้แนวทางระบายความร้อนแบบไฮบริด ประมาณครึ่งหนึ่งของการระบายความร้อนมาจากโรงงาน graywater ของ xAI ในขณะที่อีกครึ่งหนึ่งใช้การระบายความร้อนด้วยอากาศ³⁰ ภายในเดือนสิงหาคม 2025 ชิลเลอร์ระบายความร้อนด้วยอากาศ 119 ตัวให้กำลังการระบายความร้อนประมาณ 200 เมกะวัตต์ เพียงพอสำหรับ GB200 NVL72 GPU ประมาณ 110,000 ตัว³¹

ในระหว่างเฟสการก่อสร้างเริ่มต้น xAI เช่าเครื่องกำเนิดไฟฟ้าและประมาณหนึ่งในสี่ของกำลังการระบายความร้อนเคลื่อนที่ของสหรัฐฯ เพื่อเริ่มดำเนินการอย่างรวดเร็ว³² การจัดหาโครงสร้างพื้นฐานชั่วคราวอย่างเข้มข้นทำให้ระยะเวลาที่กระชั้นเป็นไปได้ในขณะที่ระบบถาวรเสร็จสมบูรณ์

เครือข่าย Spectrum-X Ethernet

ไม่เหมือนกับคลัสเตอร์ฝึก AI ส่วนใหญ่ที่ใช้ InfiniBand, Colossus ของ xAI ใช้แพลตฟอร์ม Spectrum-X Ethernet ของ NVIDIA สำหรับเครือข่าย RDMA³³ ทางเลือกนี้แสดงให้เห็นว่า Ethernet สามารถรองรับคลัสเตอร์ฝึก AI ที่ใหญ่ที่สุดได้เมื่อกำหนดค่าอย่างเหมาะสม

Colossus ใช้ Spectrum SN5600 ขนาด 51.2 เทราบิตต่อวินาที ซึ่งมีพอร์ต 800-gigabit Ethernet 64 พอร์ตในฟอร์มแฟกเตอร์ 2U³⁴ โหนดแต่ละตัวใช้ BlueField-3 SuperNIC ของ NVIDIA ที่มีการเชื่อมต่อ 400-gigabit เดียวไปยัง GPU แต่ละตัว³⁵

เครือข่ายบรรลุความล่าช้าของแอปพลิเคชันเป็นศูนย์หรือไม่มีการสูญเสียแพ็กเก็ตเนื่องจากการชนกันของ flow ในทุกสามระดับของ fabric³⁶ ระบบรักษา data throughput 95% ที่เปิดใช้งานโดยการควบคุมความแออัดของ Spectrum-X³⁷ Ethernet มาตรฐานมักให้ throughput เพียง 60% ในระดับนี้เนื่องจากการชนกันของ flow หลายพัน³⁸

เครือข่าย Ethernet ดั้งเดิมประสบปัญหา incast เมื่อ GPU หลายพันตัวสื่อสารพร้อมกัน³⁹ InfiniBand แก้ปัญหานี้โดยดั้งเดิมด้วย Priority Flow Control ในตัวและการจัดการความแออัดระดับฮาร์ดแวร์⁴⁰ Spectrum-X บรรลุผลลัพธ์ที่คล้ายกันโดยใช้ RoCE v2 พร้อมกลไกควบคุมความแออัดที่ปรับปรุงแล้ว⁴¹

แนวทาง Ethernet ให้ประโยชน์ด้านต้นทุนและความยืดหยุ่นเมื่อเทียบกับ InfiniBand ในขณะที่รักษาประสิทธิภาพ คุณสมบัติ Spectrum-X รวมถึง adaptive routing พร้อมเทคโนโลยี Direct Data Placement, การควบคุมความแออัด และการมองเห็น AI fabric ที่ปรับปรุงแล้ว ทำให้ได้ประสิทธิภาพเหมือน InfiniBand บนโครงสร้างพื้นฐาน Ethernet⁴²

การเปรียบเทียบขนาด

Colossus ที่มี GPU 200,000 ตัวเกินซูเปอร์คอมพิวเตอร์หลักอื่นๆ อย่างมาก⁴³ ซูเปอร์คอมพิวเตอร์ AI ระดับ zettascale ของ Oracle มี NVIDIA GPU 131,072 ตัว⁴⁴ El Capitan ของ Lawrence Livermore National Laboratory มี GPU 44,544 ตัว⁴⁵ Frontier ของ Oak Ridge National Laboratory มี GPU 37,632 ตัว⁴⁶

ตามข้อกำหนดของ xAI, Colossus บรรลุ memory bandwidth รวม 194 เพตาไบต์ต่อวินาทีพร้อมความจุเก็บข้อมูลเกิน 1 เอ็กซาไบต์⁴⁷ memory bandwidth ทำให้การดำเนินการร่วมกันที่การฝึก AI ต้องการใน GPU หลายแสนตัวเป็นไปได้

คลัสเตอร์ฝึกแชทบอท Grok ของ xAI และให้การสนับสนุนการคำนวณแก่ X และกิจการอื่นๆ ของ Musk รวมถึง SpaceX⁴⁸ การใช้งานหลายวัตถุประสงค์ทำให้การลงทุนโครงสร้างพื้นฐานคุ้มค่าในหลายสายธุรกิจ

การขยาย Colossus 2

xAI เริ่มโครงการ Colossus 2 เมื่อวันที่ 7 มีนาคม 2025 โดยซื้อคลังสินค้าขนาด 1 ล้านตารางฟุตใน Memphis พร้อมไซต์ที่อยู่ติดกันสองแห่งรวม 100 เอเคอร์⁴⁹ ไซต์ Tulane Road จะเป็นที่ตั้งของกอง GPU ที่ขยาย

การขยายตั้งเป้า GPU 350,000 ตัวพร้อมการติดตั้งแบตเตอรี่ Tesla Megapack ที่ใหญ่ที่สุดในโลกสำหรับพลังงานสำรองระหว่างโหลดระบบไฟฟ้าสูง⁵⁰ ไซต์จะมี Megapack 60 ถึง 70 ตัวพร้อมกับโครงสร้างพื้นฐาน GPU⁵¹

หอการค้า Memphis อ้างว่า xAI ตั้งใจจะขยายเป็น GPU รวม 1 ล้านตัว⁵² การบรรลุระดับนั้นต้องการการพัฒนาโครงสร้างพื้นฐานด้านพลังงานอย่างต่อเนื่องเกินกำลังการผลิตปัจจุบัน 1.1 กิกะวัตต์ที่ Solaris วางแผนสำหรับปี 2027 จะรองรับ GPU พลังงานสูงประมาณครึ่งล้านตัวที่ระดับความหนาแน่นปัจจุบัน

บทเรียนด้านโครงสร้างพื้นฐาน

โครงการ Colossus แสดงให้เห็นแนวทางหลายประการที่เร่งการติดตั้งโครงสร้างพื้นฐาน AI

การนำสถานที่กลับมาใช้ใหม่สามารถลดระยะเวลาได้อย่างมาก การหาสถานที่อุตสาหกรรมที่มีอยู่พร้อมโครงสร้างพื้นฐานด้านพลังงานช่วยลดเวลาการก่อสร้างที่การสร้างใหม่ต้องการ องค์กรที่เข้าถึงสถานที่อุตสาหกรรมที่ปลดประจำการอาจพบโอกาสสำหรับการติดตั้งโครงสร้างพื้นฐาน AI อย่างรวดเร็ว

โครงสร้างพื้นฐานชั่วคราวทำให้เส้นทางคู่ขนานเป็นไปได้ การเช่าเครื่องกำเนิดไฟฟ้า ระบบระบายความร้อนเคลื่อนที่ และการขนส่งน้ำด้วยรถบรรทุกทำให้สามารถเริ่มดำเนินการได้ในขณะที่โครงสร้างพื้นฐานถาวรเสร็จสมบูรณ์ ต้นทุนที่สูงกว่าสำหรับโซลูชันชั่วคราวอาจคุ้มค่าเมื่อเวลาในการดำเนินการกำหนดตำแหน่งการแข่งขัน

Ethernet สามารถรองรับคลัสเตอร์ที่ใหญ่ที่สุดได้ การติดตั้ง Spectrum-X พิสูจน์ว่าไม่จำเป็นต้องใช้ InfiniBand สำหรับการฝึก AI ขนาดใหญ่ องค์กรที่มีความเชี่ยวชาญและโครงสร้างพื้นฐาน Ethernet อาจไม่จำเป็นต้องนำ InfiniBand มาใช้แม้สำหรับการติดตั้งที่ใหญ่ที่สุด

พลังงานยังคงเป็นข้อจำกัดหลัก แม้จะมีโซลูชันที่สร้างสรรค์รวมถึงการจัดเก็บแบตเตอรี่ กังหันก๊าซ และการก่อสร้างสถานีไฟฟ้าย่อยที่เร่ง ความพร้อมของพลังงานจำกัดความเร็วและขนาดของการติดตั้ง องค์กรที่วางแผนคลัสเตอร์ AI ขนาดใหญ่ควรรักษากำลังการผลิตพลังงานก่อน

การแลกเปลี่ยนรวมถึงความท้าทายด้านกฎระเบียบ ปัญหาความสัมพันธ์กับชุมชน และความเสี่ยงทางเทคนิคจากระยะเวลาที่กระชั้น ใบอนุญาตกังหันก๊าซของ xAI หมดอายุในปี 2027 ทำให้เกิดข้อกำหนดการเปลี่ยนผ่าน⁵³ เจ้าหน้าที่ท้องถิ่นแสดงความกังวลเกี่ยวกับการมองเห็นที่จำกัดในการดำเนินงานของ xAI⁵⁴ ความเร็วที่ทำให้ได้เปรียบในการแข่งขันอาจสร้างหนี้ทางเทคนิคที่การติดตั้งที่ช้ากว่าหลีกเลี่ยงได้

อ้างอิงด่วน: ข้อกำหนด Colossus

ข้อกำหนด ค่า
GPU ทั้งหมด 200,000+ (150K H100, 50K H200, 30K GB200)
เวลาก่อสร้าง 122 วัน (เฟส 1), 92 วัน (เฟส 2)
การใช้พลังงาน 250 MW ปัจจุบัน
โครงสร้างพื้นฐานพลังงาน กังหันก๊าซ 35 ตัว (420 MW), Tesla Megapack 208 ตัว
เครือข่าย NVIDIA Spectrum-X 800G Ethernet
พื้นที่จัดเก็บ >1 exabyte
Memory bandwidth 194 PB/s
การกำหนดค่าแร็ค 64 GPU ต่อแร็ค, 1,500 แร็ค
ระบบระบายความร้อน ระบายความร้อนด้วยของเหลว + รีไซเคิล graywater
เป้าหมายการขยาย 1 ล้าน GPU

ประเด็นสำคัญ

สำหรับผู้นำด้านโครงสร้างพื้นฐาน: - ใบเสนอราคา DC แบบดั้งเดิม: 18-24 เดือน; xAI ส่งมอบใน 122 วันโดยใช้การนำสถานที่กลับมาใช้ใหม่ - โครงสร้างพื้นฐานชั่วคราว (เครื่องกำเนิดไฟฟ้าเช่า ระบบระบายความร้อนเคลื่อนที่ น้ำขนส่งด้วยรถบรรทุก) ทำให้เส้นทางคู่ขนานเป็นไปได้ - พลังงานยังคงเป็นข้อจำกัดหลัก—รักษากำลังการผลิตก่อนการจัดซื้อ GPU - Spectrum-X Ethernet พิสูจน์ว่าใช้งานได้ในระดับ GPU 200K ท้าทายความจำเป็นของ InfiniBand

สำหรับทีมสถานที่: - สถานที่อุตสาหกรรมที่ปลดประจำการเสนอโอกาสการติดตั้งอย่างรวดเร็ว - 250 MW ต้องการแหล่งพลังงานหลายแหล่ง—กังหันก๊าซ แบตเตอรี่ สถานีไฟฟ้าย่อย - การรีไซเคิล graywater ตอบสนองความกังวลเรื่องน้ำในระดับใหญ่—โรงงาน 80 ล้านดอลลาร์ปกป้องน้ำใต้ดิน 4.7 พันล้านแกลลอน - ชิลเลอร์ระบายความร้อนด้วยอากาศ 119 ตัวให้กำลังการระบายความร้อน ~200 MW

สำหรับการวางแผนเชิงกลยุทธ์: - การแลกเปลี่ยนระหว่างความเร็วกับความยั่งยืน: ใบอนุญาตกังหันก๊าซหมดอายุปี 2027 - ระยะเวลาที่กระชั้นสร้างหนี้ทางเทคนิคที่การติดตั้งที่ระมัดระวังหลีกเลี่ยงได้ - การใช้งานหลายวัตถุประสงค์ (Grok, X, SpaceX) ทำให้การลงทุนโครงสร้างพื้นฐานคุ้มค่า - เป้าหมาย 1 ล้าน GPU ต้องการ

[เนื้อหาถูกตัดทอนสำหรับการแปล]

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING