Disaggregated Computing สำหรับ AI: สถาปัตยกรรมโครงสร้างพื้นฐานแบบ Composable

Disaggregated Computing สำหรับ AI: สถาปัตยกรรมโครงสร้างพื้นฐานแบบ Composable

Disaggregated Computing สำหรับ AI: สถาปัตยกรรมโครงสร้างพื้นฐานแบบ Composable

อัปเดตวันที่ 11 ธันวาคม 2025

อัปเดตเดือนธันวาคม 2025: CXL memory pooling บรรลุความเร็วเพิ่มขึ้น 3.8 เท่าเมื่อเทียบกับ 200G RDMA และ 6.5 เท่าเมื่อเทียบกับ 100G RDMA สำหรับการ inference ของ LLM Jensen Huang กล่าวว่า: "เมื่อคุณสามารถวาง accelerator ได้ทุกที่ในดาต้าเซ็นเตอร์และประกอบและปรับแต่งใหม่สำหรับ workload เฉพาะได้—นั่นคือการปฏิวัติ" โครงสร้างพื้นฐานแบบ composable กำลังทำลายอัตราส่วนเซิร์ฟเวอร์แบบตายตัวเพื่อจับคู่กับข้อกำหนดของ AI workload อย่างไดนามิก

CXL memory pooling บรรลุความเร็วเพิ่มขึ้น 3.8 เท่าเมื่อเทียบกับ 200G RDMA และ 6.5 เท่าเมื่อเทียบกับ 100G RDMA เมื่อแชร์หน่วยความจำข้ามเซิร์ฟเวอร์ GPU ที่รัน large language model inference[^1] การสาธิตใช้เซิร์ฟเวอร์สองตัวพร้อม NVIDIA H100 GPU ที่รันโมเดล OPT-6.7B แสดงให้เห็นว่า CXL memory ที่แชร์กันเร่งความเร็ว AI workload ได้เหนือกว่าที่เครือข่ายแบบดั้งเดิมทำได้ ดังที่ Jensen Huang จาก NVIDIA กล่าวไว้: "เมื่อคุณสามารถแยกส่วนเซิร์ฟเวอร์แบบ converged ได้ เมื่อคุณสามารถวาง accelerator ได้ทุกที่ในดาต้าเซ็นเตอร์และสามารถประกอบและปรับแต่งดาต้าเซ็นเตอร์นั้นใหม่สำหรับ workload เฉพาะนี้—นั่นคือการปฏิวัติ"[^2]

โครงสร้างพื้นฐานแบบ composable เป็นแนวทางสถาปัตยกรรมที่ทรัพยากรการประมวลผล การจัดเก็บ และเครือข่ายดำรงอยู่เป็น pool ที่ถูก abstract และจัดการอย่างอิสระผ่าน software-defined control plane[^3] ต่างจากสถาปัตยกรรมแบบดั้งเดิมที่เชื่อมโยง CPU, หน่วยความจำ, การจัดเก็บ และเครือข่ายเข้ากับเซิร์ฟเวอร์เฉพาะ โครงสร้างพื้นฐานแบบ composable ปฏิบัติต่อทรัพยากรฮาร์ดแวร์เป็น pool ที่ยืดหยุ่นซึ่งจัดสรรแบบไดนามิกข้าม workload แนวทางนี้สัญญาว่าจะปรับปรุงการใช้ทรัพยากรและความยืดหยุ่นในการ deploy อย่างมากสำหรับโครงสร้างพื้นฐาน AI

ทำลายขอบเขตเซิร์ฟเวอร์

เซิร์ฟเวอร์แบบดั้งเดิมรวมอัตราส่วนคงที่ของ CPU, หน่วยความจำ, GPU และการจัดเก็บ AI workload แทบไม่เคยตรงกับอัตราส่วนคงที่เหล่านี้ งาน training ต้องการความหนาแน่น GPU สูงสุดพร้อมข้อกำหนด CPU ที่ค่อนข้างน้อย Inference workload อาจต้องการหน่วยความจำต่อ GPU มากกว่าที่การกำหนดค่ามาตรฐานให้ Pipeline การประมวลผลล่วงหน้าต้องการความจุ CPU และการจัดเก็บโดยไม่มี GPU

โครงสร้างพื้นฐานแบบ composable ทำลายขอบเขตเซิร์ฟเวอร์ ทำให้องค์กรสามารถประกอบระบบเสมือนที่ตรงกับข้อกำหนด workload ที่แน่นอน[^4] Training workload ได้รับการประกอบจาก 8 GPU, CPU น้อยที่สุด และการจัดเก็บแบนด์วิดท์สูง Inference workload ได้รับ 2 GPU พร้อมหน่วยความจำที่ขยาย ทรัพยากรทางกายภาพเดียวกันให้บริการทั้งสอง workload ในเวลาต่างกันโดยไม่ต้องปรับแต่งฮาร์ดแวร์ใหม่

โมเดลการแยกส่วน

สถาปัตยกรรมแบบ disaggregated แยกโหนดทางกายภาพออกเป็นประเภททรัพยากรเฉพาะ: โหนดการประมวลผล, โหนดหน่วยความจำ, โหนด GPU และโหนดการจัดเก็บ[^5] Fabric ความเร็วสูงเชื่อมต่อโหนดต่างๆ ทำให้ซอฟต์แวร์สามารถประกอบระบบตรรกะจากทรัพยากรทางกายภาพที่กระจายตัว การประกอบเกิดขึ้นในซอฟต์แวร์โดยไม่ต้องเดินสายใหม่

ทรัพยากรไม่ต้องนั่งว่างรอ workload เฉพาะอีกต่อไป โหนด GPU ให้บริการงาน training ในช่วงชั่วโมงเร่งด่วนและงาน inference ในเวลากลางคืน โหนดหน่วยความจำขยายความจุสำหรับ workload ที่ใช้หน่วยความจำเข้มข้นโดยไม่ต้อง over-provision ทุกเซิร์ฟเวอร์ ความยืดหยุ่นนี้ปรับปรุงการใช้งานพร้อมลดข้อกำหนดฮาร์ดแวร์ทั้งหมด

CXL เปิดใช้งาน memory pooling

Compute Express Link (CXL) ให้ interconnect แบบ cache-coherent ที่เปิดใช้งานการแยกหน่วยความจำในทางปฏิบัติ[^6] CXL ให้การเข้าถึงแบบ memory-semantic พร้อม latency ในช่วง 200-500 นาโนวินาที เทียบกับประมาณ 100 ไมโครวินาทีสำหรับ NVMe และมากกว่า 10 มิลลิวินาทีสำหรับการแชร์หน่วยความจำแบบ storage-based[^7] การปรับปรุง latency เปิดใช้งานการแชร์หน่วยความจำแบบไดนามิกและละเอียดอย่างแท้จริงข้ามโหนดการประมวลผล

CXL memory pooling ทำงานอย่างไร

CXL memory pool สร้างชั้นใหม่ของหน่วยความจำแบบ disaggregated ความเร็วสูงที่ปรับเปลี่ยนวิธีที่องค์กรสร้างโครงสร้างพื้นฐาน AI[^8] โหนด CPU เข้าถึงหน่วยความจำแบบ pooled เหมือนเชื่อมต่อในเครื่อง โดย CXL fabric จัดการ coherency และการเคลื่อนย้ายข้อมูลอย่างโปร่งใส แอปพลิเคชันเห็นความจุหน่วยความจำที่ขยายโดยไม่ต้องแก้ไข

CXL Memory Box เปิดใช้งาน memory pooling ข้ามเซิร์ฟเวอร์ GPU หลายตัว ทำให้เข้าถึง memory pool ที่ใหญ่กว่าที่เซิร์ฟเวอร์แต่ละตัวให้ได้[^9] AI workload ที่ประมวลผล dataset ที่เกินความจุหน่วยความจำในเครื่องได้ประโยชน์จาก pooled memory โดยไม่มีบทลงโทษด้านประสิทธิภาพจากการเข้าถึงหน่วยความจำระยะไกลแบบดั้งเดิม แนวทางนี้เปิดใช้งาน batch size ที่ใหญ่ขึ้นและ context window ที่ยาวขึ้นโดยไม่ต้องอัปเกรดเซิร์ฟเวอร์แต่ละตัว

เหนือกว่าหน่วยความจำ: full resource pooling

CXL เปิดใช้งานมากกว่า memory pooling มาตรฐานนี้รองรับการเชื่อมต่อแบบ composable ระหว่าง CPU, memory buffer และ accelerator[^10] GPU, FPGA, DPU และ accelerator อื่นๆ เชื่อมต่อผ่าน CXL fabric สำหรับการจัดสรรแบบไดนามิกข้าม workload

วิสัยทัศน์ขยายไปถึงการแยกทรัพยากรอย่างสมบูรณ์ที่ไม่มีทรัพยากรใดผูกติดถาวรกับทรัพยากรอื่น องค์กรสร้าง resource pool ที่มีขนาดตามความต้องการรวมมากกว่าความต้องการสูงสุดต่อ workload Software orchestration ประกอบทรัพยากรที่เหมาะสมสำหรับแต่ละ workload แบบ real-time

โซลูชันในอุตสาหกรรม

ผู้ขายหลายรายเสนอโซลูชันโครงสร้างพื้นฐานแบบ composable ที่ตอบสนองข้อกำหนดของ AI workload

Liqid composable platform

Liqid ออก composable GPU server พร้อม CXL 2.0 memory pooling รองรับหน่วยความจำแบบ disaggregated composable สูงสุด 100 TB[^11] แพลตฟอร์มนี้รวม EX-5410P กล่อง GPU 10 สล็อตรองรับ GPU 600W รวมถึง NVIDIA H200, RTX Pro 6000 และ Intel Gaudi 3 accelerator ซอฟต์แวร์ Matrix ควบคุมการประกอบทรัพยากรข้ามแพลตฟอร์มฮาร์ดแวร์

แนวทาง Liqid บรรจุ composability เป็นโซลูชันแบบบูรณาการแทนที่จะต้องให้ลูกค้าออกแบบระบบ disaggregated จากส่วนประกอบ องค์กรได้รับประโยชน์ composability โดยไม่ต้องสร้างความเชี่ยวชาญในการออกแบบ fabric และการพัฒนาซอฟต์แวร์ orchestration

IBM Research composable systems

IBM Research สำรวจมาตรฐาน CXL สำหรับการสร้างระบบ composable อย่างเต็มรูปแบบผ่าน fabric ความเร็วสูงและ latency ต่ำ[^12] ในสถาปัตยกรรมของพวกเขา ทรัพยากรดำรงอยู่เป็นส่วนหนึ่งของ pool ขนาดใหญ่ที่เชื่อมต่อผ่าน network fabric แทนที่จะถูกจัดกลุ่มแบบคงที่ในเซิร์ฟเวอร์ Composable resource จัดกลุ่มร่วมกันเพื่อสร้าง server abstraction ที่ตรงกับข้อกำหนด workload เฉพาะ

โปรแกรมวิจัยจัดการกับความท้าทายรวมถึงการออกแบบ fabric topology, การเพิ่มประสิทธิภาพ latency และ software orchestration สำหรับโครงสร้างพื้นฐาน AI แบบ composable งานนี้ก้าวหน้าความเข้าใจว่าระบบ composable ระดับ production ควรทำงานอย่างไร

ความร่วมมือ GigaIO และ Microchip

GigaIO และ Microchip พัฒนาโครงสร้างพื้นฐาน disaggregated แบบ composable ระดับ cloud ที่รวมเทคโนโลยี PCIe และ CXL[^13] แนวทางนี้มุ่งเป้าไปที่ดาต้าเซ็นเตอร์ที่ต้องการความยืดหยุ่นของ composable resource พร้อมลักษณะประสิทธิภาพของฮาร์ดแวร์ที่เชื่อมต่อโดยตรง

ข้อพิจารณาด้านสถาปัตยกรรม

การนำโครงสร้างพื้นฐานแบบ composable ไปใช้ต้องการการตัดสินใจด้านสถาปัตยกรรมที่ครอบคลุมการออกแบบ fabric, ซอฟต์แวร์ orchestration และการจัดการ workload

Fabric topology

Interconnect fabric กำหนด latency และ bandwidth ที่ทำได้ระหว่างทรัพยากรที่ disaggregate CXL fabric ต้องให้ bandwidth เพียงพอสำหรับรูปแบบการเข้าถึงระดับความเร็วหน่วยความจำพร้อมรักษา latency ภายในขอบเขตที่ยอมรับได้ Fabric topology ส่งผลต่อทั้งประสิทธิภาพและต้นทุน

Topology แบบ switch-based ให้ความยืดหยุ่นแต่เพิ่ม latency เมื่อเทียบกับการเชื่อมต่อโดยตรง การแลกเปลี่ยนระหว่างความซับซ้อนของ topology และ latency budget ขึ้นอยู่กับข้อกำหนด workload เฉพาะ Workload ที่ใช้หน่วยความจำเข้มข้นต้องการ latency ต่ำกว่า workload ที่ใช้การจัดเก็บเข้มข้น

ข้อกำหนด Orchestration

Software orchestration จัดการการประกอบทรัพยากร จัดการคำขอการจัดสรร ติดตามสถานะทรัพยากร และรักษาการแยกส่วนระหว่างการประกอบ ชั้น orchestration ต้องตอบสนองเร็วพอที่จะรองรับการเปลี่ยนแปลง workload แบบไดนามิกโดยไม่กลายเป็นคอขวด

การรวม Kubernetes เปิดใช้งาน composable resource เพื่อให้บริการ containerized AI workload โดยใช้ orchestration primitive ที่คุ้นเคย GPU Operator และส่วนขยายที่คล้ายกันจัดการทรัพยากร accelerator โดยส่วนขยาย composability เปิดใช้งานการจัดสรร GPU pool แบบไดนามิก

ข้อพิจารณา failure domain

การ disaggregation เปลี่ยนลักษณะ failure domain โหนดหน่วยความจำที่ล้มเหลวส่งผลกระทบต่อการประกอบทั้งหมดที่ใช้หน่วยความจำนั้นแทนที่จะเป็นเซิร์ฟเวอร์เดียว รัศมีความเสียหายของความล้มเหลวของส่วนประกอบขยายตัวเมื่อเทียบกับสถาปัตยกรรมเซิร์ฟเวอร์แบบ converged

กลยุทธ์ redundancy ต้องคำนึงถึงโหมดความล้มเหลวแบบ disaggregated Memory pool ต้องการ redundancy ข้ามโหนดทางกายภาพ นโยบายการประกอบควรหลีกเลี่ยงการรวม critical workload บนทรัพยากรที่แชร์ การติดตามต้องติดตาม health ข้าม fabric แทนที่จะเป็นเซิร์ฟเวอร์แต่ละตัว

ความเชี่ยวชาญในการ deploy โครงสร้างพื้นฐาน

ความซับซ้อนของโครงสร้างพื้นฐานแบบ composable เกินกว่าการ deploy เซิร์ฟเวอร์แบบดั้งเดิม การติดตั้ง fabric, การตรวจสอบประสิทธิภาพ และการกำหนดค่า orchestration ต้องการความเชี่ยวชาญเฉพาะทางที่องค์กรส่วนใหญ่ขาดภายใน

วิศวกรภาคสนาม 550 คนของ Introl สนับสนุนองค์กรที่นำสถาปัตยกรรมโครงสร้างพื้นฐานขั้นสูงไปใช้รวมถึงระบบ composable และ disaggregated[^14] บริษัทติดอันดับ #14 ใน Inc. 5000 ปี 2025 ด้วยการเติบโตสามปี 9,594% สะท้อนความต้องการบริการโครงสร้างพื้นฐานระดับมืออาชีพ[^15] การ deploy แบบ composable ได้ประโยชน์จากประสบการณ์ในการติดตั้งและตรวจสอบ fabric ความเร็วสูง

การ deploy โครงสร้างพื้นฐานข้าม 257 สถานที่ทั่วโลก ต้องการแนวปฏิบัติที่สอดคล้องกันโดยไม่คำนึงถึงภูมิศาสตร์[^16] Introl จัดการการ deploy ที่ไปถึง 100,000 GPU พร้อมโครงสร้างพื้นฐานเครือข่าย fiber optic มากกว่า 40,000 ไมล์ ให้ operational scale สำหรับองค์กรที่สร้างโครงสร้างพื้นฐาน AI แบบ composable[^17]

อนาคตแบบ composable

สถาปัตยกรรมแบบ disaggregated ที่แชร์ทรัพยากรจะเปิดใช้งานโครงสร้างพื้นฐานสำหรับการประมวลผลข้อมูลระดับ petabyte ที่จำเป็นสำหรับ AI, machine learning และเทคโนโลยีที่ใช้ข้อมูลเข้มข้นอื่นๆ[^18] การนำ CXL ไปใช้จะเร่งขึ้นเมื่อมาตรฐานเติบโตและโซลูชันของผู้ขายแพร่หลาย

องค์กรที่วางแผนการลงทุนโครงสร้างพื้นฐาน AI ควรประเมินสถาปัตยกรรมแบบ composable สำหรับการ deploy ที่ความแปรปรวนของ workload ทำให้เซิร์ฟเวอร์อัตราส่วนคงที่ไม่มีประสิทธิภาพ ประโยชน์ความยืดหยุ่นทบต้นตามขนาด: การ deploy ที่ใหญ่กว่าบรรลุการปรับปรุงการใช้งานที่ดีกว่าจาก resource pooling

การเปลี่ยนผ่านจากโครงสร้างพื้นฐานแบบ converged เป็น composable แทนการเปลี่ยนแปลงพื้นฐานในสถาปัตยกรรมดาต้าเซ็นเตอร์ องค์กรที่เชี่ยวชาญการ deploy แบบ composable ได้รับข้อได้เปรียบความยืดหยุ่นที่แปลงเป็นประสิทธิภาพต้นทุนและความคล่องตัวในการ deploy การปฏิวัติที่ Jensen Huang อธิบายเริ่มต้นด้วยการเข้าใจว่าการ disaggregation เปลี่ยนเศรษฐศาสตร์โครงสร้างพื้นฐานอย่างไร

ประเด็นสำคัญ

สำหรับสถาปนิกโครงสร้างพื้นฐาน: - CXL memory pooling บรรลุความเร็วเพิ่มขึ้น 3.8 เท่าเทียบกับ 200G RDMA และ 6.5 เท่าเทียบกับ 100G RDMA สำหรับ LLM inference workload - CXL latency: การเข้าถึง memory-semantic 200-500ns เทียบกับ ~100μs NVMe เทียบกับ >10ms การแชร์แบบ storage-based - Disaggregation เปิดใช้งาน: การประกอบ 8 GPU สำหรับ training, 2 GPU + หน่วยความจำที่ขยายสำหรับ inference จาก hardware pool เดียวกัน

สำหรับทีมจัดซื้อ: - Liqid EX-5410P: กล่อง GPU 10 สล็อตรองรับ GPU 600W (H200, RTX Pro 6000, Gaudi 3) พร้อม CXL memory pooling 100TB - เซิร์ฟเวอร์อัตราส่วนคงที่แบบดั้งเดิมเปลืองทรัพยากร: training ต้องการ GPU สูงสุดพร้อม CPU น้อย; inference ต้องการหน่วยความจำมากขึ้นต่อ GPU - Composable ลดฮาร์ดแวร์ทั้งหมดโดยการ pool ทรัพยากรข้าม workload; โหนด GPU ให้บริการ training กลางวัน inference กลางคืน

สำหรับ platform engineer: - IBM Research สำรวจ CXL สำหรับระบบ composable อย่างเต็มรูปแบบผ่าน fabric ความเร็วสูง latency ต่ำ - ความร่วมมือ GigaIO/Microchip: composable ระดับ cloud ที่รวมเทคโนโลยี PCIe และ CXL - การรวม Kubernetes ผ่านส่วนขยาย GPU Operator เปิดใช้งาน composable resource พร้อม orchestration ที่คุ้นเคย

สำหรับทีม operations: - การเปลี่ยนแปลง failure domain: โหนดหน่วยความจำที่ล้มเหลวส่งผลกระทบต่อการประกอบทั้งหมดที่ใช้มัน เทียบกับเซิร์ฟเวอร์เดียวในสถาปัตยกรรม converged - กลยุทธ์ redundancy ต้องคำนึงถึงโหมดความล้มเหลวแบบ disaggregated; หลีกเลี่ยงการรวม workload บนทรัพยากรที่แชร์ - การติดตาม fabric health แทนที่การติดตามเซิร์ฟเวอร์แต่ละตัว; นโยบายการประกอบป้องกัน

[เนื้อหาถูกตัดทอนสำหรับการแปล]

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING