สตอเรจที่ปรับให้เหมาะสมกับ AI: กองเทคโนโลยีที่ป้อนข้อมูลให้คลัสเตอร์ GPU
อัปเดตวันที่ 11 ธันวาคม 2025
อัปเดตเดือนธันวาคม 2025: ตลาดสตอเรจสำหรับ AI เติบโตจาก 36,000 ล้านดอลลาร์ (2025) เป็น 322,000 ล้านดอลลาร์ภายในปี 2035 DDN EXAScaler ส่งมอบความเร็ว 4TB/s ให้กับซูเปอร์คอมพิวเตอร์ NVIDIA Eos GPUDirect Storage ช่วยให้ถ่ายโอนข้อมูลโดยตรงได้กว่า 40 GB/s; เทคโนโลยี SCADA ของ NVIDIA ในเดือนพฤศจิกายน 2025 ขจัดการพึ่งพา CPU ที่เหลืออยู่ทั้งหมด NVMe-oF เติบโตด้วยอัตรา CAGR 27.8% เมื่อองค์กรขยายเวลาแฝงระดับ PCIe ผ่านเครือข่าย
คอขวดของสตอเรจทำให้ GPU ว่างงาน การติดตั้ง DDN EXAScaler เพียงชุดเดียวส่งมอบปริมาณข้อมูลสี่เทราไบต์ต่อวินาทีให้กับซูเปอร์คอมพิวเตอร์ Eos ของ NVIDIA ซึ่งป้อนประสิทธิภาพ AI 18.4 exaflops จากระบบ DGX H100 จำนวน 576 ระบบ¹ เมื่อ GPU มีราคาหลายหมื่นดอลลาร์ต่อหน่วยและคลัสเตอร์สำหรับเทรนมีตัวเร่งความเร็วนับพันตัว โครงสร้างพื้นฐานสตอเรจที่ไม่สามารถรักษาปริมาณการส่งข้อมูลได้จะสูญเสียทรัพยากรการประมวลผลมูลค่าหลายล้านดอลลาร์ ตลาดสตอเรจที่ขับเคลื่อนด้วย AI สะท้อนให้เห็นถึงความเร่งด่วนนี้ โดยคาดว่าจะเติบโตจาก 36,280 ล้านดอลลาร์ในปี 2025 เป็น 321,930 ล้านดอลลาร์ภายในปี 2035 ด้วยอัตราการเติบโตต่อปีแบบทบต้น 24.4%²
เวิร์กโหลด AI สมัยใหม่ต้องการลักษณะประสิทธิภาพสตอเรจที่แตกต่างอย่างสิ้นเชิงจากแอปพลิเคชันองค์กรแบบดั้งเดิม ชุดข้อมูลสำหรับเทรนที่วัดเป็นเพตาไบต์ต้องการปริมาณการส่งข้อมูลแบบลำดับอย่างต่อเนื่อง การดำเนินการ checkpointing ต้องเสร็จสิ้นภายในไม่กี่วินาทีเพื่อลดการหยุดชะงักของการเทรน เวิร์กโหลด inference สร้างรูปแบบ I/O ที่คาดเดาไม่ได้ซึ่งผสมการอ่านแบบสุ่มขนาดเล็กกับการเขียนแบบ burst องค์กรที่ปรับใช้โครงสร้างพื้นฐาน AI ในระดับใหญ่ตอนนี้ประเมินระบบสตอเรจตามตัวชี้วัดการใช้งาน GPU แทนที่จะเป็นเกณฑ์มาตรฐาน IOPS แบบดั้งเดิม
NVMe-oF ขยายประสิทธิภาพแฟลชข้ามเครือข่าย
NVMe over Fabrics (NVMe-oF) ช่วยให้เวิร์กโหลดประสิทธิภาพสูงทำงานในระดับใหญ่โดยให้การแชร์ NVMe SSD ด้วยเวลาแฝงต่ำผ่าน Ethernet ประสิทธิภาพสูงหรือ InfiniBand fabrics³ โปรโตคอลนี้ส่งมอบประสิทธิภาพที่ใกล้เคียงกับ NVMe SSD ที่เชื่อมต่อโดยตรง ในขณะที่อนุญาตให้องค์กรขยายทรัพยากรสตอเรจอย่างอิสระจากการจัดสรรการประมวลผล, GPU และหน่วยความจำ⁴
โปรโตคอลสตอเรจแบบดั้งเดิมเพิ่มเวลาแฝงเป็นมิลลิวินาทีผ่าน software stacks ที่ปรับให้เหมาะสมกับดิสก์หมุน NVMe-oF ขจัดเลเยอร์เหล่านี้ บรรลุเวลาแฝงในระดับสิบไมโครวินาทีแม้เมื่อขยายไปยังโหนดนับพันโดยใช้ RDMA transports⁵ TCP transports ช่วยให้ปรับใช้บน Ethernet ทั่วไปได้ในขณะที่ยังคงให้การปรับปรุงประสิทธิภาพอย่างมากเมื่อเทียบกับโปรโตคอล NFS หรือ iSCSI รุ่นเก่า⁶
สำหรับโครงสร้างพื้นฐาน AI, NVMe-oF มีความสำคัญในที่ที่ทุกไมโครวินาทีมีค่า: ไปป์ไลน์เทรนที่ GPU ว่างงานรอข้อมูล, การดำเนินการ checkpoint ที่ต้องเสร็จสิ้นภายในกรอบเวลาที่เข้มงวด และเวิร์กโหลด inference ที่ต้องการเวลาตอบสนองต่ำกว่ามิลลิวินาที⁷ เกณฑ์มาตรฐานที่เผยแพร่แสดงการอ่านแบบลำดับ 351 GiB ต่อวินาทีพร้อมการผสานรวม GPUDirect Storage โดยคาดว่าการลดเวลาแฝงจะเพิ่มการใช้งาน GPU ที่มีประสิทธิภาพได้ 2 ถึง 3 เท่าในการกำหนดค่าที่ถูกจำกัดด้วย I/O⁸
การนำไปใช้ในอุตสาหกรรมเร่งตัวขึ้นตลอดปี 2025 Western Digital และ Ingrasys ได้สร้างความร่วมมือในเดือนพฤษภาคม 2025 โดยรวมความเชี่ยวชาญด้าน GPU server เข้ากับความสามารถ NVMe-oF และ fabric-attached storage⁹ Hitachi Vantara เปิดตัว Virtual Storage Platform One Block High End ในเดือนพฤศจิกายน 2025 ซึ่งเป็นโซลูชัน all-flash NVMe block storage รุ่นใหม่ที่ออกแบบมาสำหรับเวิร์กโหลดที่สำคัญต่อภารกิจและ AI¹⁰ ระบบ NVMe-oF คาดการณ์อัตราการเติบโตต่อปีแบบทบต้น 27.80% เมื่อองค์กรขยายเวลาแฝงระดับ PCIe ข้ามเครือข่ายเพื่อเพิ่มการใช้งาน GPU ในคลัสเตอร์ AI แบบกระจาย¹¹
GPUDirect Storage ขจัดคอขวด CPU
GPUDirect Storage ของ NVIDIA ช่วยให้ถ่ายโอนข้อมูลโดยตรงจากสตอเรจไปยังหน่วยความจำ GPU โดยไม่ต้องผ่าน CPU และหน่วยความจำระบบ¹² เทคโนโลยีนี้ขจัดอุปสรรคด้านประสิทธิภาพพื้นฐานในไปป์ไลน์เทรน AI ที่ชุดข้อมูลขนาดใหญ่ต้องไหลเข้าสู่หน่วยความจำ GPU อย่างต่อเนื่องเพื่อการประมวลผล
การเทรน deep learning เกี่ยวข้องกับการดำเนินการ checkpointing บ่อยครั้งที่น้ำหนักเครือข่ายที่เทรนแล้วบันทึกลงดิสก์ในขั้นตอนการเทรนต่างๆ ตามนิยาม checkpointing อยู่ในเส้นทาง I/O ที่สำคัญ¹³ โมเดลพารามิเตอร์ 100,000 ล้านตัวสร้างข้อมูลประมาณ 800GB ถึง 1.6TB ต่อ checkpoint และการเทรนในระดับใหญ่ด้วยตัวเร่งความเร็ว 16,000 ตัวต้องการ 155 checkpoint ต่อวัน¹⁴ เพื่อรักษา overhead ให้ต่ำกว่า 5% การดำเนินการ checkpoint ต้องเสร็จสิ้นภายใน 28 วินาทีในระดับนั้น ลดลงเหลือ 4.4 วินาทีสำหรับคลัสเตอร์ตัวเร่งความเร็ว 100,000 ตัว¹⁵
GPUDirect Storage ตอบสนองความต้องการเหล่านี้โดยให้อัตราการถ่ายโอนโดยตรงกว่า 40 GBps จากสตอเรจไปยังหน่วยความจำ GPU¹⁶ สถาปัตยกรรมอ้างอิง Lenovo/NVIDIA ส่งมอบ 20 GBps ต่อโหนดพร้อมความสามารถในการขยายแบบเชิงเส้น รองรับฟังก์ชันการเทรน LLM, inference และ checkpointing¹⁷ เทคโนโลยี SCADA ของ NVIDIA ในเดือนพฤศจิกายน 2025 พา GPUDirect ไปไกลยิ่งขึ้นโดย offload แม้แต่เส้นทางควบคุมสตอเรจไปยัง GPU ขจัดการพึ่งพา CPU ที่เหลืออยู่ทั้งหมดในการดำเนินการสตอเรจ¹⁸
การนำฮาร์ดแวร์ไปใช้แพร่กระจายทั่วระบบนิเวศ อะแดปเตอร์ HighPoint Rocker 7638D ช่วยให้เวิร์กโฟลว์ GPUDirect Storage ทำงานได้ด้วยแบนด์วิดท์สูงถึง 64 GB/s และเวลาแฝงที่คาดเดาได้ มีประโยชน์อย่างยิ่งสำหรับชุดข้อมูลเทรนขนาดใหญ่¹⁹ ผู้จำหน่ายสตอเรจรวมถึง DDN, Pure Storage, WEKA และ VAST Data ได้รับการรับรองแพลตฟอร์มของตนสำหรับการผสานรวม GPUDirect กับระบบ NVIDIA DGX และ HGX
ระบบไฟล์แบบขนานขับเคลื่อน AI ระดับ exascale
ระบบไฟล์แบบขนานกระจายข้อมูลและ metadata ข้ามเซิร์ฟเวอร์หลายตัว ช่วยให้ปริมาณการส่งข้อมูลรวมขยายตามจำนวนโหนดสตอเรจ แพลตฟอร์มสามตัวครองการปรับใช้ AI และ HPC: Lustre, IBM Storage Scale (เดิมชื่อ GPFS) และ WekaFS
Lustre ครองส่วนแบ่งตลาด 41% ในระบบไฟล์แบบขนาน ตามด้วย IBM Storage Scale ที่ 17% และ WEKA ที่ 6%²⁰ สถาปัตยกรรมแต่ละแบบปรับให้เหมาะสมกับลักษณะเวิร์กโหลดที่แตกต่างกัน
Lustre โดดเด่นในสภาพแวดล้อมที่มีการดำเนินการแบบลำดับขนาดใหญ่รวมถึงการจำลองทางวิทยาศาสตร์และไปป์ไลน์การเรนเดอร์วิดีโอ²¹ สถาปัตยกรรมให้ความสำคัญกับแบนด์วิดท์ที่ยั่งยืนมากกว่าการจัดการไฟล์ขนาดเล็ก บรรลุการขยายประสิทธิภาพแบบเกือบเชิงเส้นเมื่อเพิ่ม Object Storage Servers (OSS) สำหรับเวิร์กโหลดที่ต้องการแบนด์วิดท์สูง²² Lustre ทำงานได้ดีที่สุดกับ InfiniBand fabrics และขับเคลื่อนซูเปอร์คอมพิวเตอร์ส่วนใหญ่ของโลก ผลิตภัณฑ์ EXAScaler ของ DDN รวม Lustre เข้ากับการปรับแต่งประสิทธิภาพและความสามารถในการจัดการระดับองค์กร
IBM Storage Scale ให้ประสิทธิภาพที่เหนือกว่าในการดำเนินการที่ต้องใช้ metadata มาก²³ แนวทาง metadata แบบกระจายสร้างไฟล์ขนาดเล็ก แก้ไขแอตทริบิวต์ และจัดโครงสร้างไดเรกทอรีที่ซับซ้อนได้อย่างมีประสิทธิภาพมากกว่าสถาปัตยกรรม metadata server แบบรวมศูนย์ของ Lustre²⁴ Storage Scale ส่งมอบประสิทธิภาพที่สม่ำเสมอข้ามรูปแบบ I/O ที่หลากหลายและผสานรวมเข้ากับสถาปัตยกรรมอ้างอิง NVIDIA DGX SuperPOD พร้อมการรองรับ GPUDirect²⁵
WekaFS มุ่งเป้าไปที่เวิร์กโหลด AI/ML โดยเฉพาะ ออกแบบมาตั้งแต่ต้นสำหรับ NVMe SSD แทนที่จะปรับปรุงจากสถาปัตยกรรมดิสก์หมุน²⁶ metadata แบบกระจายของ WEKA ขจัดคอขวด metadata server ที่จำกัดระบบไฟล์แบบขนานรุ่นเก่า²⁷ เกณฑ์มาตรฐานแสดงว่า WekaFS มีประสิทธิภาพเหนือกว่า FSx for Lustre 300% หรือมากกว่าที่ความจุใกล้เคียงกัน โดยเวลาแฝง I/O บางครั้งน้อยกว่า 30% ของโซลูชันคู่แข่ง²⁸ WekaFS รองรับโปรโตคอล pNFS, SMB และ S3 ช่วยให้รูปแบบการเข้าถึงหลายโปรโตคอลที่พบได้ทั่วไปในไปป์ไลน์ AI
DDN, Pure Storage และ VAST Data นำภูมิทัศน์ผู้จำหน่าย
ผู้จำหน่ายสตอเรจสามรายครองการปรับใช้โครงสร้างพื้นฐาน AI ด้วยผลิตภัณฑ์ที่ออกแบบมาโดยเฉพาะสำหรับเวิร์กโหลดคลัสเตอร์ GPU
DDN ขับเคลื่อนซูเปอร์คอมพิวเตอร์ AI ที่มีชื่อเสียงที่สุด ระบบ Eos ของ NVIDIA รวมระบบ DGX H100 จำนวน 576 ระบบเข้ากับอุปกรณ์ DDN A³I จำนวน 48 ชุดที่ส่งมอบสตอเรจ 12 เพตาไบต์ด้วยปริมาณการส่งข้อมูลสี่เทราไบต์ต่อวินาทีในพื้นที่น้อยกว่าสามแร็คโดยใช้พลังงานเพียง 100 kW²⁹ DDN ประกาศการรับรอง Blackwell ในเดือนมีนาคม 2025 โดยปรับแต่ง EXAScaler และ Infinia 2.0 สำหรับ DGX SuperPOD พร้อมระบบ DGX GB200 และ DGX B200³⁰ DDN AI400X2-Turbo ตัวเดียวบรรลุ 10 เท่าของข้อกำหนดขั้นต่ำ 1 GBps/GPU สำหรับทั้งการอ่านและเขียนเมื่อจับคู่กับ DGX B200 ส่งมอบการใช้งานเครือข่ายสูงถึง 96%³¹ ความร่วมมือของ DDN กับ Yotta สำหรับโครงการ AI อธิปไตยของอินเดียปรับใช้ระบบ EXAScaler AI400X3 ที่ขับเคลื่อน NVIDIA B200 GPU จำนวน 8,000 ตัว³²
Pure Storage เปิดตัว FlashBlade//EXA ในเดือนมีนาคม 2025 โดยคาดการณ์ประสิทธิภาพการอ่านมากกว่า 10 เทราไบต์ต่อวินาทีใน namespace เดียว³³ แพลตฟอร์มมุ่งเป้าไปที่ลูกค้าที่ใช้ GPU ระหว่างหนึ่งถึงหลายหมื่นตัวที่ต้องการปริมาณการส่งข้อมูลสตอเรจ 1 TB/sec ถึง 50 TB/sec³⁴ สถาปัตยกรรมแบบแยกส่วนของ FlashBlade//EXA ขยายข้อมูลและ metadata อย่างอิสระโดยใช้ data nodes จากบุคคลที่สาม ช่วยให้ประสิทธิภาพแบบขนานขนาดใหญ่³⁵ Pure Storage ได้รับการรับรอง FlashBlade//S500 กับ NVIDIA DGX SuperPOD ผสานรวมการออกแบบอ้างอิง NVIDIA AI Data Platform พร้อมการรองรับ GPUDirect Storage³⁶
VAST Data บรรลุยอดจอง software สะสม 2,000 ล้านดอลลาร์ภายในเดือนพฤษภาคม 2025³⁷ สถาปัตยกรรม DASE (Distributed and Shared Everything) ส่งมอบความเป็นขนานที่ก้าวกระโดดสำหรับคลัสเตอร์ GPU กว่า 100,000 ตัวที่ความเร็วเทราไบต์ต่อวินาที ขจัดคอขวดข้อมูล AI³⁸ VAST อ้างว่ามีต้นทุนรวมการเป็นเจ้าของต่ำกว่า 50% สำหรับเวิร์กโหลด AI ที่ต้องการสูงผ่านประสิทธิภาพที่รุนแรง³⁹ แพลตฟอร์มรองรับสตอเรจ all-flash ระดับ exabyte พร้อมการเข้าถึง NFS, SMB, S3 และ Kubernetes CSI ตามมาตรฐานอุตสาหกรรม⁴⁰ Microsoft Azure ประกาศการผสานรวมกับ AI Operating System ของ VAST ในเดือนพฤศจิกายน 2025 สำหรับการขยายไปป์ไลน์ AI ภายในองค์กรไปยังโครงสร้างพื้นฐานคลาวด์ที่เร่งด้วย GPU⁴¹
สถาปัตยกรรม checkpointing สร้างสมดุลระหว่างความเร็วและความน่าเชื่อถือ
Model checkpointing สร้างความต้องการสตอเรจที่เรียกร้องมากที่สุดในการเทรน AI ขนาด checkpoint ขยายตามจำนวนพารามิเตอร์: ประมาณ 8 ถึง 12 ไบต์ต่อพารามิเตอร์สำหรับการเทรนแบบ mixed-precision หมายความว่าโมเดลพารามิเตอร์ 100,000 ล้านตัวสร้าง 800GB ถึง 1.2TB ต่อ checkpoint⁴² ความต้องการความถี่เพิ่มขึ้นตามขนาดคลัสเตอร์ ถึง checkpoint ทุก 1.5 นาทีสำหรับการปรับใช้ตัวเร่งความเร็ว 100,000 ตัว⁴³
ระบบเทรนสมัยใหม่ใช้สถาปัตยกรรม checkpointing แบบหลายชั้น Checkpoint ชั้นเร็วเขียนไปยังสตอเรจ NVMe ภายในโหนดทุกไม่กี่นาที Checkpoint ชั้นกลางแพร่กระจายไปยังระบบไฟล์ที่แชร์ทุก 30 นาที Checkpoint ที่ทนทานถึง object storage เช่น Amazon S3 ทุกไม่กี่ชั่วโมงเท่านั้น⁴⁴ Checkpointing แบบอะซิงโครนัสอนุญาตให้การเทรนดำเนินต่อไปในขณะที่กระบวนการพื้นหลังระบายสตอเรจภายในไปยังชั้นทั่วโลก⁴⁵
ความต้องการแบนด์วิดท์ checkpoint ทั่วโลกยังคงต่ำอย่างน่าประหลาดใจแม้ในระดับใหญ่ การวิเคราะห์ checkpoint 85,000 รายการข้ามระบบจริงพบว่าแบนด์วิดท์โดยทั่วไปต่ำกว่า 1 TB/s มากแม้สำหรับโมเดลพารามิเตอร์ระดับล้านล้าน⁴⁶ แบนด์วิดท์ checkpoint ต่อ GPU ลดลงเมื่อขนาดโมเดลเพิ่มขึ้นเพราะเฉพาะ data-parallel replica เดียวเท่านั้นที่เขียนระหว่าง checkpointing โดยไม่คำนึงถึงขนาดคลัสเตอร์ทั้งหมด⁴⁷
ปริมาณการส่งข้อมูลที่รายงานแตกต่างกันอย่างมากข้ามการใช้งาน Gemini รายงานปริมาณการส่งข้อมูล checkpoint 3.13 GB/s Nebula ของ Microsoft (DeepSpeed) บรรลุ 1-4 GB/s ตัวเลขเหล่านี้สะท้อนการแลกเปลี่ยนทางสถาปัตยกรรมระหว่างความถี่ checkpoint, ชั้นสตอเรจ และ overhead การเทรนที่ยอมรับได้⁴⁸
Computational storage ย้ายการประมวลผลไปยังข้อมูล
Computational storage devices (CSDs) ฝังฟังก์ชันการประมวลผลภายในฮาร์ดแวร์สตอเรจ ประมวลผลข้อมูลก่อนถ่ายโอนเพื่อลดความต้องการแบนด์วิดท์ I/O⁴⁹ สถาปัตยกรรมนี้พิสูจน์แล้วว่ามีคุณค่าอย่างยิ่งสำหรับการปรับใช้ edge AI ที่เผชิญกับทรัพยากรการประมวลผลที่จำกัด งบประมาณพลังงานที่เข้มงวด และความต้องการเวลาแฝงแบบเรียลไทม์⁵⁰
แอปพลิเคชัน CSD ขั้นสูงรวมถึงการรันฐานข้อมูล โมเดล machine learning และการวิเคราะห์โดยตรงบนอุปกรณ์สตอเรจ การใช้งานบางอย่างรองรับระบบปฏิบัติการ Linux เต็มรูปแบบ ช่วยให้ AI/ML inference ทำงานบนไดรฟ์เอง⁵¹ การปรับใช้ที่ขอบได้รับประโยชน์จากการประมวลผลเบื้องต้นที่ชั้นสตอเรจ กรองผลลัพธ์ก่อนส่งไปยังโปรเซสเซอร์หลัก⁵²
เทคโนโลยีนี้ตอบสนองข้อจำกัดเฉพาะของ edge AI การรัน inference เปลี่ยนไปยังอุปกรณ์ขอบมากขึ้นเรื่อยๆ เพื่อเพิ่มการเข้าถึง ความสามารถในการปรับแต่ง และประสิทธิภาพ⁵³ Cisco เปิดตัว Unified Edge ในเดือนพฤศจิกายน 2025 ซึ่งเป็นแพลตฟอร์มการประมวลผลแบบบูรณาการที่รวมการประมวลผล เครือข่าย สตอเรจ และความปลอดภัยสำหรับ AI แบบเรียลไทม์
[เนื้อหาถูกตัดทอนสำหรับการแปล]