Lưu trữ đối tượng cho AI: Triển khai GPU Direct Storage với thông lượng 200GB/s

GPUDirect Storage 2.0 được tích hợp cùng CUDA 12.3+, mang lại cải thiện thông lượng 15% và hỗ trợ nguyên bản cho GPU H100/H200. Ổ NVMe PCIe Gen5 hiện đạt 14GB/s mỗi ổ, cho phép đạt 400GB/s+...

Lưu trữ đối tượng cho AI: Triển khai GPU Direct Storage với thông lượng 200GB/s

Lưu trữ đối tượng cho AI: Triển khai GPU Direct Storage với thông lượng 200GB/s

Cập nhật ngày 8 tháng 12 năm 2025

Cập nhật tháng 12 năm 2025: GPUDirect Storage 2.0 được tích hợp cùng CUDA 12.3+, mang lại cải thiện thông lượng 15% và hỗ trợ nguyên bản cho GPU H100/H200. Ổ NVMe PCIe Gen5 hiện đạt 14GB/s mỗi ổ, cho phép đạt 400GB/s+ mỗi máy chủ. NVIDIA Magnum IO stack được tối ưu hóa cho Blackwell, với các benchmark sớm cho thấy thông lượng ổn định 250GB/s. Các nhà cung cấp đám mây lớn (AWS, Azure, GCP) hiện cung cấp các instance hỗ trợ GPUDirect Storage với tích hợp EBS/Azure Disk/Persistent Disk.

Meta đã đạt được cải thiện 3,8 lần tốc độ huấn luyện mô hình bằng cách triển khai GPUDirect Storage trên các cụm nghiên cứu của họ, loại bỏ nút thắt cổ chai CPU trước đây giới hạn tải dữ liệu ở mức 50GB/s và hiện tại truyền dữ liệu huấn luyện trực tiếp đến GPU với tốc độ 192GB/s.¹ Các công việc huấn luyện PyTorch của gã khổng lồ mạng xã hội này trước đây mất 35% thời gian tính toán để chờ dữ liệu—một sự lãng phí đáng tiếc khi GPU H100 có giá 3,50 đô la mỗi giờ. Kiến trúc lưu trữ đối tượng của họ hiện cung cấp dữ liệu cho 2.048 GPU đồng thời thông qua các endpoint tương thích S3 song song, với mỗi GPU nhận phần dữ liệu của mình mà không cần CPU tham gia. Các khối lượng công việc AI hiện đại đòi hỏi hệ thống lưu trữ phù hợp với tốc độ xử lý của GPU, nhưng hầu hết các tổ chức vẫn truyền petabyte qua các hệ thống tệp truyền thống được thiết kế cho kỷ nguyên CPU.

Việc huấn luyện GPT-4 yêu cầu xử lý 13 nghìn tỷ token từ các tập dữ liệu vượt quá 45TB, với tốc độ tải dữ liệu ảnh hưởng trực tiếp đến chi phí huấn luyện 100 triệu đô la.² Lưu trữ đối tượng cung cấp khả năng mở rộng, độ bền và mẫu truy cập song song cần thiết cho các khối lượng công việc AI, hỗ trợ hàng nghìn trình đọc GPU đồng thời trong khi duy trì độ bền 99,999999999% (11 số 9). Các tổ chức triển khai lưu trữ đối tượng được tối ưu hóa cho GPU báo cáo giảm 60% thời gian huấn luyện, chi phí lưu trữ thấp hơn 75% so với SAN/NAS truyền thống, và khả năng mở rộng từ terabyte đến exabyte mà không cần thay đổi kiến trúc. Sự hội tụ của lưu trữ NVMe, mạng RDMA và công nghệ GPUDirect cho phép thông lượng lưu trữ cuối cùng phù hợp với nhu cầu của GPU hiện đại.

Kiến trúc cơ bản của GPUDirect Storage

GPUDirect Storage (GDS) cách mạng hóa việc di chuyển dữ liệu bằng cách thiết lập đường dẫn bộ nhớ trực tiếp giữa lưu trữ và bộ nhớ GPU, bỏ qua hoàn toàn CPU và RAM hệ thống. Các đường dẫn dữ liệu truyền thống yêu cầu bốn lần sao chép bộ nhớ: từ lưu trữ đến bộ đệm kernel, kernel đến không gian người dùng, không gian người dùng đến driver GPU, driver đến bộ nhớ GPU.³ GDS loại bỏ các bản sao trung gian thông qua kernel bypass và DMA peer-to-peer, giảm độ trễ từ 15 micro giây xuống dưới 2 micro giây. NVIDIA Magnum IO software stack điều phối các truyền tải này, đạt 97% băng thông NVMe lý thuyết.

Ngăn xếp công nghệ yêu cầu các thành phần phần cứng và phần mềm cụ thể hoạt động phối hợp. SSD NVMe có hỗ trợ CMB/PMR cho phép ánh xạ bộ nhớ trực tiếp. Card mạng hỗ trợ RDMA (ConnectX-6 trở lên) cung cấp truy cập lưu trữ từ xa. GPU từ thế hệ V100 trở đi hỗ trợ các thao tác GDS. Linux kernel 5.10+ bao gồm các driver cần thiết và tính năng quản lý bộ nhớ. MOFED networking stack cho phép RoCE v2 cho các triển khai Ethernet. Các ứng dụng yêu cầu tích hợp GDS API rõ ràng hoặc các framework tương thích như DALI cho deep learning.

Các kiến trúc triển khai khác nhau dựa trên yêu cầu về quy mô và hiệu suất:

NVMe cục bộ: Các ổ NVMe gắn trực tiếp cung cấp 200GB/s mỗi máy chủ với 8 ổ. Mỗi GPU ánh xạ các ổ cụ thể thông qua các giao dịch PCIe peer-to-peer. Độ trễ thấp nhất nhưng dung lượng hạn chế và không chia sẻ giữa các node.

NVMe-oF: Các mảng NVMe tách rời được truy cập qua fabric cung cấp 100GB/s mỗi kết nối. Các node lưu trữ expose các namespace trực tiếp đến máy chủ GPU. Cho phép gộp tài nguyên trong khi duy trì độ trễ micro giây.

Object tương thích S3: Các object store scale-out cung cấp dung lượng không giới hạn với truy cập song song. Nhiều node lưu trữ phục vụ các chunk đồng thời để đạt thông lượng tổng hợp. Độ trễ cao hơn nhưng khả năng mở rộng lớn và độ bền tích hợp.

Thiết kế hạ tầng lưu trữ

Xây dựng thông lượng ổn định 200GB/s đòi hỏi thiết kế hạ tầng cẩn thận trên nhiều lớp:

Lựa chọn phương tiện lưu trữ: Ổ NVMe doanh nghiệp cung cấp 7GB/s đọc tuần tự mỗi ổ. Samsung PM1735 hoặc Kioxia CM6 series cung cấp hiệu suất ổn định dưới tải liên tục.⁴ Form factor U.2 cho phép 24 ổ mỗi máy chủ 2U. Ổ M.2 cung cấp mật độ cao hơn nhưng có thách thức về nhiệt. Optane persistent memory cung cấp 40GB/s mỗi module cho bộ nhớ đệm dữ liệu nóng. Tính toán tối thiểu 30-35 ổ cho 200GB/s có tính đến overhead.

Kiến trúc mạng: 200GbE hoặc dual 100GbE cung cấp đủ băng thông với dự phòng. RDMA over Converged Ethernet (RoCE v2) loại bỏ overhead giao thức. Cấu trúc spine-leaf với oversubscription 3:1 xử lý lưu lượng burst. Mỗi node lưu trữ cần dung lượng uplink 200Gbps. Các node GPU cần băng thông ingress tương đương. Switch non-blocking ngăn chặn slowdown do nghẽn.

Cấu hình máy chủ: Các node lưu trữ cân bằng CPU, bộ nhớ và dung lượng ổ. Dual AMD EPYC hoặc Intel Xeon cung cấp đủ sức xử lý cho erasure coding. 512GB RAM cho phép cache metadata mở rộng. Hardware RAID controller làm nghẽn hiệu suất—sử dụng software-defined storage. Hai cổng 100GbE cung cấp dự phòng và cân bằng tải. PCIe Gen4 x16 slot cho mỗi ổ NVMe đảm bảo băng thông đầy đủ.

Ngăn xếp phần mềm: Các nền tảng lưu trữ đối tượng khác nhau đáng kể về tối ưu hóa GPU: - MinIO: Triển khai S3 native với hỗ trợ GDS, đạt thông lượng được chứng minh 183GB/s⁵ - VAST Data: Nền tảng tối ưu phần cứng đạt 200GB/s với QLC flash - WekaFS: Hệ thống tệp song song với S3 gateway, hiệu suất đo được 191GB/s - Pure Storage FlashBlade: Mảng tích hợp với 75GB/s mỗi chassis - DDN EXAScaler: Giải pháp tập trung HPC đạt 250GB/s ở quy mô lớn

Thực tiễn tốt nhất khi triển khai

Các triển khai GPU Direct Storage thành công tuân theo các mẫu đã được chứng minh:

Tổ chức dữ liệu: Cấu trúc tập dữ liệu cho các mẫu truy cập song song. Phân mảnh dữ liệu huấn luyện thành nhiều object có kích thước 64-256MB để streaming tối ưu. Triển khai consistent hashing để ánh xạ GPU-to-shard xác định. Lưu trữ metadata trong key-value store nhanh để lập chỉ mục tập dữ liệu nhanh chóng. Phiên bản hóa tập dữ liệu sử dụng nguyên tắc immutable object. Nén dữ liệu khi GPU decompression vượt qua thông lượng lưu trữ.

Thiết kế namespace: Tách biệt namespace theo loại khối lượng công việc và mẫu truy cập. Dữ liệu huấn luyện trong các pool thông lượng cao với erasure coding. Checkpoint mô hình trong các pool độ bền cao với replication. Dữ liệu tạm thời trong các pool tối ưu hiệu suất không có dự phòng. Dữ liệu lưu trữ trong các pool tối ưu dung lượng với nén mạnh.

Chiến lược cache: Triển khai cache đa tầng cho dữ liệu truy cập thường xuyên. NVMe cache trên các node GPU cho working set dưới 10TB. Cache phân tán sử dụng Redis hoặc Memcached cho metadata. Cache phía lưu trữ sử dụng Optane hoặc RAM cho object nóng. Prefetching dựa trên mẫu epoch huấn luyện. Làm nóng cache trong giờ thấp điểm giảm tác động sản xuất.

Cân bằng tải: Phân phối request qua các node lưu trữ để đạt thông lượng tổng hợp. DNS round-robin để phân phối endpoint S3 đơn giản. HAProxy hoặc NGINX để định tuyến request thông minh. Cân bằng tải phía client sử dụng consistent hashing. Giám sát thông lượng mỗi node để xác định nút thắt cổ chai. Triển khai request coalescing cho các object nhỏ.

Introl thiết kế và triển khai các giải pháp lưu trữ hiệu suất cao cho các khối lượng công việc AI trên toàn vùng phủ sóng toàn cầu của chúng tôi, với chuyên môn quản lý các triển khai lưu trữ đối tượng quy mô petabyte.⁶ Các đội ngũ của chúng tôi tối ưu hóa hạ tầng lưu trữ để tối đa hóa việc sử dụng GPU và hiệu quả huấn luyện.

Kỹ thuật tối ưu hóa hiệu suất

Đạt thông lượng ổn định 200GB/s đòi hỏi tối ưu hóa có hệ thống:

Tinh chỉnh kernel: Tăng bộ đệm mạng lên 128MB cho các kết nối băng thông cao. Tắt CPU frequency scaling để có độ trễ ổn định. Ghim interrupt handler vào các core cụ thể tránh các core GPU. Bật huge pages để giảm áp lực TLB. Tinh chỉnh cài đặt NUMA cho truy cập bộ nhớ cục bộ. Đặt io_schedule thành 'none' cho thiết bị NVMe.

Tối ưu mạng: Bật jumbo frames (9000 MTU) trên toàn bộ đường dẫn. Cấu hình ECN để thông báo nghẽn mà không mất packet. Tinh chỉnh cài đặt TCP cho các sản phẩm bandwidth-delay cao. Bật hardware offload cho checksum và segmentation. Cấu hình interrupt coalescing để giảm overhead CPU. Triển khai priority flow control cho RoCE không mất mát.

Tinh chỉnh lưu trữ: Căn chỉnh ranh giới phân vùng theo kích thước erase block. Cấu hình queue depth phù hợp (256-1024 mỗi thiết bị). Bật write caching với bảo vệ mất điện. Tắt các tính năng hệ thống tệp không cần thiết như cập nhật thời gian truy cập. Triển khai TRIM/UNMAP cho hiệu suất SSD bền vững. Giám sát wear leveling SSD và thay thế ổ trước khi có vấn đề.

Tối ưu ứng dụng: Sử dụng kích thước IO lớn (1-4MB) cho truy cập tuần tự. Triển khai prefetching để che giấu độ trễ lưu trữ. Chồng lấp tính toán với truyền dữ liệu sử dụng double buffering. Ghim bộ đệm bộ nhớ để ngăn page migration. Sử dụng direct IO để bỏ qua kernel caching. Gộp các request nhỏ thành các thao tác lớn hơn.

Triển khai thực tế

OpenAI - Hạ tầng huấn luyện GPT: - Lưu trữ: 50PB WekaFS với giao diện S3 - Thông lượng: 175GB/s ổn định đến 10.000 GPU - Kiến trúc: 100 node lưu trữ với NVMe + Optane - Mạng: 400GbE InfiniBand với RDMA - Kết quả: Giảm tải dữ liệu từ 30% xuống 5% thời gian huấn luyện - Đổi mới: Prefetching tùy chỉnh dự đoán mẫu truy cập

Netflix - Nền tảng hiểu video: - Lưu trữ: 20PB MinIO trên 3 khu vực - Thông lượng: 145GB/s tổng hợp cho inference - Cấu hình: 60 node với 24 ổ NVMe mỗi node - Tối ưu: Sharding theo nội dung theo cảnh - Kết quả: Xử lý toàn bộ catalog trong 72 giờ - Chi phí: Giảm 80% so với AWS S3

Công ty xe tự lái (Theo NDA): - Tập dữ liệu: 500TB cảnh quay lái xe - Lưu trữ: Pure FlashBlade với GDS - Hiệu suất: 200GB/s đến 512 GPU V100 - Kiến trúc: 10 chassis kết nối với nhau - Tác động: Thời gian huấn luyện giảm từ 21 xuống 7 ngày - Điểm chính: Tối ưu hóa temporal locality trong bố cục dữ liệu

Phòng thí nghiệm quốc gia - ML khoa học: - Quy mô: 100PB DDN EXAScaler - Thông lượng: 250GB/s ổn định - Khối lượng công việc: Huấn luyện mô phỏng khí hậu - GPU: 2.048 A100 truy cập đồng thời - Hiệu quả: Đạt 94% sử dụng GPU - Đổi mới: Lưu trữ phân cấp với backend tape

Giám sát và khắc phục sự cố

Giám sát toàn diện đảm bảo hiệu suất bền vững:

Số liệu thông lượng: Theo dõi băng thông đọc mỗi GPU để xác định các GPU chậm. Giám sát thông lượng tổng hợp của cluster so với mức tối đa lý thuyết. Đo phân vị độ trễ request (p50, p99, p999). Cảnh báo khi thông lượng giảm vượt quá 10%. Vẽ đồ thị mẫu theo giờ/ngày để xác định thời kỳ cao điểm. So sánh tỷ lệ báo cáo từ ứng dụng với đo lường từ hạ tầng.

Sức khỏe lưu trữ: Giám sát chỉ số wear SSD để dự đoán lỗi. Theo dõi tỷ lệ lỗi cần chú ý trước khi ảnh hưởng. Quan sát nhiệt độ đảm bảo tránh thermal throttling. Đo queue depth để xác định bão hòa. Quan sát mẫu IOPS để phát hiện bất thường. Cảnh báo khi dung lượng tiến gần 80%.

Hiệu suất mạng: Giám sát packet loss cần điều tra ngay lập tức. Theo dõi tỷ lệ retransmission cho thấy nghẽn. Đo round-trip time để phát hiện tăng độ trễ. Quan sát sử dụng buffer để ngăn overflow. Vẽ đồ thị sử dụng băng thông để xác định nút thắt. Cảnh báo khi lỗi vượt quá tỷ lệ cơ sở.

Số liệu ứng dụng: Theo dõi thời gian tải dữ liệu mỗi epoch. Giám sát sử dụng GPU đảm bảo lưu trữ theo kịp. Đo thời gian lưu/khôi phục checkpoint. Quan sát tỷ lệ cache hit tập dữ liệu. Vẽ đồ thị thông lượng huấn luyện iterations/giây. So sánh hiệu suất dự kiến với thực tế.

Các vấn đề phổ biến và giải pháp:

Triệu chứng: Thông lượng dưới mức kỳ vọng - Kiểm tra: Tính nhất quán MTU mạng trên toàn đường dẫn - Kiểm tra: Queue depth của storage controller

[Nội dung bị cắt ngắn để dịch]

Yêu cầu báo giá_

Hãy cho chúng tôi biết về dự án của bạn và chúng tôi sẽ phản hồi trong vòng 72 giờ.

> TRUYỀN_TẢI_HOÀN_TẤT

Đã Nhận Yêu cầu_

Cảm ơn bạn đã gửi yêu cầu. Đội ngũ của chúng tôi sẽ xem xét và phản hồi trong vòng 72 giờ.

ĐANG XẾP HÀNG XỬ LÝ