Lưu trữ Tối ưu cho AI: NVMe-oF, GPUDirect & Hệ thống File Song song 2025

Thị trường lưu trữ AI tăng từ 36 tỷ USD lên 322 tỷ USD vào năm 2035. DDN cung cấp 4TB/s cho siêu máy tính NVIDIA Eos. GPUDirect, NVMe-oF và hệ thống file song song nuôi dưỡng các cụm GPU đói dữ liệu.

Lưu trữ Tối ưu cho AI: NVMe-oF, GPUDirect & Hệ thống File Song song 2025

Lưu trữ Tối ưu cho AI: Ngăn xếp Công nghệ Nuôi dưỡng Các Cụm GPU

Cập nhật ngày 11 tháng 12 năm 2025

Cập nhật tháng 12 năm 2025: Thị trường lưu trữ AI đang tăng trưởng từ 36 tỷ USD (2025) lên 322 tỷ USD vào năm 2035. DDN EXAScaler cung cấp 4TB/s cho siêu máy tính NVIDIA Eos. GPUDirect Storage cho phép truyền trực tiếp hơn 40 GB/s; công nghệ SCADA của NVIDIA vào tháng 11 năm 2025 loại bỏ hoàn toàn sự can thiệp của CPU. NVMe-oF tăng trưởng với tốc độ CAGR 27,8% khi các tổ chức mở rộng độ trễ cấp PCIe qua mạng.

Tắc nghẽn lưu trữ khiến GPU phải chờ đợi. Một triển khai DDN EXAScaler đơn lẻ cung cấp bốn terabyte mỗi giây cho siêu máy tính Eos của NVIDIA, nuôi dưỡng hiệu năng AI 18,4 exaflops từ 576 hệ thống DGX H100.¹ Khi GPU có giá hàng chục nghìn đô la mỗi đơn vị và các cụm huấn luyện đạt hàng nghìn bộ tăng tốc, hạ tầng lưu trữ không thể duy trì thông lượng dữ liệu sẽ lãng phí hàng triệu đô la tài nguyên tính toán. Thị trường lưu trữ hỗ trợ AI phản ánh tính cấp bách này, được dự báo tăng từ 36,28 tỷ USD năm 2025 lên 321,93 tỷ USD vào năm 2035 với tốc độ tăng trưởng kép hàng năm 24,4%.²

Các khối lượng công việc AI hiện đại đòi hỏi các đặc tính hiệu năng lưu trữ khác biệt cơ bản so với các ứng dụng doanh nghiệp truyền thống. Các tập dữ liệu huấn luyện được đo bằng petabyte yêu cầu thông lượng tuần tự bền vững. Các thao tác checkpoint phải hoàn thành trong vài giây để giảm thiểu gián đoạn huấn luyện. Các khối lượng công việc suy luận tạo ra các mẫu I/O không thể đoán trước, kết hợp các lần đọc ngẫu nhiên nhỏ với các lần ghi đột biến. Các tổ chức triển khai hạ tầng AI ở quy mô lớn hiện đánh giá các hệ thống lưu trữ dựa trên các chỉ số sử dụng GPU thay vì các benchmark IOPS truyền thống.

NVMe-oF mở rộng hiệu năng flash qua mạng

NVMe over Fabrics (NVMe-oF) cho phép các khối lượng công việc hiệu năng cao ở quy mô lớn bằng cách cung cấp chia sẻ độ trễ thấp các SSD NVMe qua các fabric Ethernet hoặc InfiniBand hiệu năng cao.³ Giao thức này cung cấp hiệu năng tương tự như các SSD NVMe gắn cục bộ trong khi cho phép các tổ chức mở rộng tài nguyên lưu trữ độc lập với phân bổ tính toán, GPU và bộ nhớ.⁴

Các giao thức lưu trữ truyền thống thêm độ trễ hàng mili giây qua các ngăn xếp phần mềm được tối ưu hóa cho đĩa quay. NVMe-oF loại bỏ các lớp này, đạt độ trễ trong khoảng hàng chục micro giây ngay cả khi mở rộng đến hàng nghìn node sử dụng các transport RDMA.⁵ Các transport TCP cho phép triển khai qua Ethernet thông thường trong khi vẫn cung cấp cải thiện hiệu năng đáng kể so với các giao thức NFS hoặc iSCSI cũ.⁶

Đối với hạ tầng AI, NVMe-oF quan trọng ở những nơi mỗi micro giây đều đáng kể: các pipeline huấn luyện nơi GPU chờ đợi dữ liệu, các thao tác checkpoint phải hoàn thành trong các khung thời gian nghiêm ngặt, và các khối lượng công việc suy luận yêu cầu thời gian phản hồi dưới mili giây.⁷ Các benchmark được công bố cho thấy 351 GiB mỗi giây đọc tuần tự với tích hợp GPUDirect Storage, với việc giảm độ trễ dự kiến nâng hiệu quả sử dụng GPU lên 2 đến 3 lần trong các cấu hình bị giới hạn bởi I/O.⁸

Việc áp dụng trong ngành tăng tốc trong năm 2025. Western Digital và Ingrasys thiết lập quan hệ đối tác vào tháng 5 năm 2025, kết hợp chuyên môn về máy chủ GPU với khả năng NVMe-oF và lưu trữ gắn qua fabric.⁹ Hitachi Vantara ra mắt Virtual Storage Platform One Block High End vào tháng 11 năm 2025, một giải pháp lưu trữ khối NVMe all-flash thế hệ tiếp theo được thiết kế cho các khối lượng công việc quan trọng và AI.¹⁰ Các hệ thống NVMe-oF dự báo tốc độ tăng trưởng kép hàng năm 27,80% khi các tổ chức mở rộng độ trễ cấp PCIe qua mạng để tăng cường sử dụng GPU trong các cụm AI phân tán.¹¹

GPUDirect Storage loại bỏ nút thắt cổ chai CPU

GPUDirect Storage của NVIDIA cho phép truyền dữ liệu trực tiếp từ lưu trữ đến bộ nhớ GPU mà không cần đi qua CPU và bộ nhớ hệ thống.¹² Công nghệ này loại bỏ một rào cản hiệu năng cơ bản trong các pipeline huấn luyện AI nơi các tập dữ liệu lớn phải liên tục chảy vào bộ nhớ GPU để xử lý.

Huấn luyện deep learning liên quan đến các thao tác checkpoint thường xuyên nơi các trọng số mạng đã huấn luyện được lưu vào đĩa ở các giai đoạn huấn luyện khác nhau. Theo định nghĩa, checkpoint nằm trong đường dẫn I/O quan trọng.¹³ Một mô hình 100 tỷ tham số tạo ra khoảng 800GB đến 1,6TB mỗi checkpoint, và huấn luyện ở quy mô với 16.000 bộ tăng tốc yêu cầu 155 checkpoint mỗi ngày.¹⁴ Để duy trì overhead dưới 5%, các thao tác checkpoint phải hoàn thành trong dưới 28 giây ở quy mô đó, giảm xuống 4,4 giây cho các cụm 100.000 bộ tăng tốc.¹⁵

GPUDirect Storage giải quyết các yêu cầu này bằng cách cho phép tốc độ truyền trực tiếp hơn 40 GBps từ lưu trữ đến bộ nhớ GPU.¹⁶ Kiến trúc tham chiếu Lenovo/NVIDIA cung cấp 20 GBps mỗi node với khả năng mở rộng tuyến tính, hỗ trợ huấn luyện LLM, suy luận và các chức năng checkpoint.¹⁷ Công nghệ SCADA của NVIDIA vào tháng 11 năm 2025 đưa GPUDirect đi xa hơn bằng cách chuyển cả đường dẫn điều khiển lưu trữ sang GPU, loại bỏ sự can thiệp cuối cùng của CPU trong các thao tác lưu trữ.¹⁸

Các triển khai phần cứng lan rộng khắp hệ sinh thái. Adapter HighPoint Rocker 7638D cho phép các workflow GPUDirect Storage với băng thông lên đến 64 GB/s và độ trễ có thể dự đoán, đặc biệt hữu ích cho các tập dữ liệu huấn luyện quy mô lớn.¹⁹ Các nhà cung cấp lưu trữ bao gồm DDN, Pure Storage, WEKA và VAST Data chứng nhận nền tảng của họ cho tích hợp GPUDirect với các hệ thống NVIDIA DGX và HGX.

Hệ thống file song song cung cấp năng lượng cho AI quy mô exascale

Hệ thống file song song phân phối dữ liệu và metadata qua nhiều máy chủ, cho phép thông lượng tổng hợp mở rộng theo số lượng node lưu trữ. Ba nền tảng thống trị các triển khai AI và HPC: Lustre, IBM Storage Scale (trước đây là GPFS) và WekaFS.

Lustre chiếm 41% thị phần trong hệ thống file song song, tiếp theo là IBM Storage Scale với 17% và WEKA với 6%.²⁰ Mỗi kiến trúc tối ưu hóa cho các đặc tính khối lượng công việc khác nhau.

Lustre xuất sắc trong các môi trường được chi phối bởi các thao tác tuần tự lớn bao gồm mô phỏng khoa học và pipeline render video.²¹ Kiến trúc ưu tiên băng thông bền vững hơn xử lý file nhỏ, đạt được hiệu năng mở rộng gần như tuyến tính với các Object Storage Server (OSS) bổ sung cho các khối lượng công việc đòi hỏi băng thông cao.²² Lustre hoạt động tốt nhất với fabric InfiniBand và cung cấp năng lượng cho hầu hết các siêu máy tính trên thế giới. Sản phẩm EXAScaler của DDN đóng gói Lustre với các tối ưu hóa hiệu năng và khả năng quản lý doanh nghiệp.

IBM Storage Scale cung cấp hiệu năng vượt trội trong các thao tác đòi hỏi metadata cao.²³ Phương pháp metadata phân tán tạo file nhỏ, sửa đổi thuộc tính và cấu trúc thư mục phức tạp hiệu quả hơn kiến trúc máy chủ metadata tập trung của Lustre.²⁴ Storage Scale cung cấp hiệu năng nhất quán qua các mẫu I/O khác nhau và tích hợp vào các kiến trúc tham chiếu NVIDIA DGX SuperPOD với hỗ trợ GPUDirect.²⁵

WekaFS nhắm mục tiêu các khối lượng công việc AI/ML cụ thể, được thiết kế từ đầu cho SSD NVMe thay vì được cải tạo từ các kiến trúc đĩa quay.²⁶ Metadata phân tán của WEKA loại bỏ nút thắt cổ chai máy chủ metadata gây hạn chế cho các hệ thống file song song cũ.²⁷ Các benchmark cho thấy WekaFS vượt trội hơn FSx for Lustre 300% hoặc hơn ở dung lượng tương tự, với độ trễ I/O đôi khi dưới 30% so với các giải pháp cạnh tranh.²⁸ WekaFS hỗ trợ các giao thức pNFS, SMB và S3, cho phép các mẫu truy cập đa giao thức phổ biến trong các pipeline AI.

DDN, Pure Storage và VAST Data dẫn đầu bối cảnh nhà cung cấp

Ba nhà cung cấp lưu trữ thống trị các triển khai hạ tầng AI với các sản phẩm được kiến trúc cụ thể cho các khối lượng công việc cụm GPU.

DDN cung cấp năng lượng cho các siêu máy tính AI có profile cao nhất. Hệ thống Eos của NVIDIA tích hợp 576 hệ thống DGX H100 với 48 thiết bị DDN A³I cung cấp 12 petabyte lưu trữ ở thông lượng bốn terabyte mỗi giây trong ít hơn ba rack chỉ sử dụng 100 kW điện năng.²⁹ DDN công bố chứng nhận Blackwell vào tháng 3 năm 2025, tối ưu hóa EXAScaler và Infinia 2.0 cho DGX SuperPOD với các hệ thống DGX GB200 và DGX B200.³⁰ Một DDN AI400X2-Turbo đơn lẻ đạt gấp 10 lần yêu cầu tối thiểu 1 GBps/GPU cho cả thao tác đọc và ghi kết hợp với DGX B200, cung cấp lên đến 96% sử dụng mạng.³¹ Quan hệ đối tác của DDN với Yotta cho sáng kiến AI chủ quyền của Ấn Độ đã triển khai các hệ thống EXAScaler AI400X3 cung cấp năng lượng cho 8.000 GPU NVIDIA B200.³²

Pure Storage giới thiệu FlashBlade//EXA vào tháng 3 năm 2025, dự kiến hiệu năng đọc hơn 10 terabyte mỗi giây trong một namespace đơn.³³ Nền tảng nhắm mục tiêu khách hàng chạy từ một đến hàng chục nghìn GPU yêu cầu thông lượng lưu trữ 1 TB/s đến 50 TB/s.³⁴ Kiến trúc tách biệt của FlashBlade//EXA mở rộng dữ liệu và metadata độc lập sử dụng các node dữ liệu bên thứ ba, cho phép hiệu năng song song khổng lồ.³⁵ Pure Storage đạt được chứng nhận FlashBlade//S500 với NVIDIA DGX SuperPOD, tích hợp thiết kế tham chiếu NVIDIA AI Data Platform với hỗ trợ GPUDirect Storage.³⁶

VAST Data đạt 2 tỷ USD đặt hàng phần mềm tích lũy vào tháng 5 năm 2025.³⁷ Kiến trúc DASE (Distributed and Shared Everything) cung cấp tính song song đột phá cho các cụm hơn 100.000 GPU ở terabyte mỗi giây, loại bỏ các nút thắt cổ chai dữ liệu AI.³⁸ VAST tuyên bố tổng chi phí sở hữu thấp hơn 50% cho các khối lượng công việc AI đòi hỏi cao thông qua hiệu quả triệt để.³⁹ Nền tảng hỗ trợ exabyte lưu trữ all-flash với truy cập NFS, SMB, S3 và Kubernetes CSI theo tiêu chuẩn ngành.⁴⁰ Microsoft Azure công bố tích hợp với AI Operating System của VAST vào tháng 11 năm 2025 để mở rộng các pipeline AI tại chỗ vào hạ tầng cloud được tăng tốc GPU.⁴¹

Kiến trúc checkpoint cân bằng tốc độ và độ tin cậy

Checkpoint mô hình tạo ra các yêu cầu lưu trữ đòi hỏi nhất trong huấn luyện AI. Kích thước checkpoint tỷ lệ với số lượng tham số: khoảng 8 đến 12 byte mỗi tham số cho huấn luyện mixed-precision có nghĩa là một mô hình 100 tỷ tham số tạo ra 800GB đến 1,2TB mỗi checkpoint.⁴² Yêu cầu tần suất tăng cường với quy mô cụm, đạt checkpoint mỗi 1,5 phút cho các triển khai 100.000 bộ tăng tốc.⁴³

Các hệ thống huấn luyện hiện đại sử dụng các kiến trúc checkpoint phân tầng. Checkpoint tầng nhanh ghi vào lưu trữ NVMe cục bộ của node mỗi vài phút. Checkpoint tầng trung truyền đến hệ thống file chia sẻ mỗi 30 phút. Checkpoint bền vững đạt đến object storage như Amazon S3 chỉ mỗi vài giờ.⁴⁴ Checkpoint bất đồng bộ cho phép huấn luyện tiếp tục trong khi các tiến trình nền thoát lưu trữ cục bộ đến các tầng toàn cục.⁴⁵

Yêu cầu băng thông checkpoint toàn cục vẫn khá khiêm tốn ngay cả ở quy mô lớn. Phân tích 85.000 checkpoint qua các hệ thống thực tế cho thấy băng thông thường dưới 1 TB/s ngay cả cho các mô hình nghìn tỷ tham số.⁴⁶ Băng thông checkpoint mỗi GPU giảm khi kích thước mô hình tăng vì chỉ một bản sao data-parallel đơn lẻ ghi trong quá trình checkpoint bất kể tổng kích thước cụm.⁴⁷

Thông lượng được báo cáo khác nhau đáng kể giữa các triển khai. Gemini báo cáo thông lượng checkpoint 3,13 GB/s. Nebula (DeepSpeed) của Microsoft đạt 1-4 GB/s. Các con số này phản ánh các đánh đổi kiến trúc giữa tần suất checkpoint, tầng lưu trữ và overhead huấn luyện chấp nhận được.⁴⁸

Lưu trữ tính toán di chuyển xử lý đến dữ liệu

Các thiết bị lưu trữ tính toán (CSD) nhúng các chức năng tính toán trong phần cứng lưu trữ, xử lý dữ liệu trước khi truyền để giảm yêu cầu băng thông I/O.⁴⁹ Kiến trúc này chứng minh đặc biệt có giá trị cho các triển khai AI edge đối mặt với tài nguyên tính toán hạn chế, ngân sách điện năng nghiêm ngặt và yêu cầu độ trễ thời gian thực.⁵⁰

Các ứng dụng CSD tiên tiến bao gồm chạy cơ sở dữ liệu, mô hình machine learning và phân tích trực tiếp trên thiết bị lưu trữ. Một số triển khai hỗ trợ hệ điều hành Linux đầy đủ, cho phép suy luận AI/ML trên chính ổ đĩa.⁵¹ Các triển khai edge được hưởng lợi từ xử lý ban đầu ở lớp lưu trữ, lọc kết quả trước khi truyền đến các bộ xử lý chính.⁵²

Công nghệ này giải quyết các ràng buộc độc đáo của AI edge. Chạy suy luận ngày càng chuyển sang các thiết bị edge để nâng cao khả năng tiếp cận, khả năng tùy chỉnh và hiệu quả.⁵³ Cisco ra mắt Unified Edge vào tháng 11 năm 2025, một nền tảng tính toán tích hợp kết hợp tính toán, mạng, lưu trữ và bảo mật cho AI thời gian thực

[Nội dung bị cắt bớt cho bản dịch]

Yêu cầu báo giá_

Hãy cho chúng tôi biết về dự án của bạn và chúng tôi sẽ phản hồi trong vòng 72 giờ.

> TRUYỀN_TẢI_HOÀN_TẤT

Đã Nhận Yêu cầu_

Cảm ơn bạn đã gửi yêu cầu. Đội ngũ của chúng tôi sẽ xem xét và phản hồi trong vòng 72 giờ.

ĐANG XẾP HÀNG XỬ LÝ