Triển khai NVMe-oF: Tách biệt lưu trữ cho các triển khai 100.000 GPU
Cập nhật ngày 8 tháng 12 năm 2025
Cập nhật tháng 12 năm 2025: Việc áp dụng NVMe-oF đang tăng tốc với các ổ đĩa PCIe Gen5 cung cấp 14GB/s và các fabric 400GbE đang trở thành tiêu chuẩn. Đặc tả NVMe 2.0 đã được hoàn thiện với hỗ trợ multi-path và zoned namespace được cải thiện. NVIDIA BlueField-3 DPU cho phép NVMe-oF tăng tốc phần cứng với thông lượng 400Gb/s. Computational storage đang nổi lên cho việc tiền xử lý dữ liệu trước khi truyền đến GPU, giảm yêu cầu băng thông 40-60% cho các workload cụ thể.
Công cụ đề xuất của ByteDance trải rộng trên 100.000 GPU tại 12 trung tâm dữ liệu, nhưng vẫn đạt được 94% mức sử dụng lưu trữ thông qua công nghệ NVMe over Fabric, gộp 85 petabyte lưu trữ flash thành một namespace logic duy nhất có thể truy cập bởi bất kỳ GPU nào với thông lượng 180GB/s và độ trễ 5 micro giây.¹ Gã khổng lồ công nghệ Trung Quốc trước đây phân bổ lưu trữ cố định cho từng máy chủ GPU, dẫn đến 40% dung lượng nhàn rỗi trong khi các node khác thiếu không gian. Kiến trúc NVMe-oF của họ hiện phân bổ động các khối lưu trữ cho GPU theo yêu cầu, loại bỏ 42 triệu đô la mua SSD dư thừa đồng thời cải thiện tốc độ huấn luyện mô hình lên 2,3 lần thông qua tối ưu hóa vị trí dữ liệu. Các kiến trúc lưu trữ gắn trực tiếp truyền thống sụp đổ ở quy mô siêu lớn—khi quản lý 100.000 GPU, khả năng tách biệt lưu trữ khỏi tính toán trở thành sự khác biệt giữa mở rộng tuyến tính và độ phức tạp theo cấp số nhân.
NVMe over Fabric mở rộng giao thức NVMe qua các fabric mạng, cho phép truy cập lưu trữ từ xa với hiệu năng gần như cục bộ. Các tổ chức triển khai NVMe-oF báo cáo mức sử dụng lưu trữ 85-95% so với 50-60% với cấu hình gắn trực tiếp, trong khi duy trì độ trễ dưới 10 micro giây.² Công nghệ này hỗ trợ nhiều giao thức truyền tải bao gồm RDMA over Converged Ethernet (RoCE), InfiniBand, Fibre Channel và TCP, với các triển khai RoCE chiếm ưu thế trong hạ tầng AI do sự phổ biến của Ethernet. Các kiến trúc lưu trữ tách biệt giảm chi phí vốn 35-45% thông qua cải thiện mức sử dụng, cho phép mở rộng độc lập tài nguyên tính toán và lưu trữ, và cung cấp sự linh hoạt vận hành không thể có với các kiến trúc truyền thống.
Các nguyên tắc cơ bản của giao thức NVMe-oF
NVMe over Fabric bảo tồn hiệu quả của giao thức NVMe trong khi mở rộng nó qua các phương thức truyền tải mạng. Giao thức duy trì bộ lệnh tinh gọn của NVMe, kiến trúc hàng đợi song song và mô hình điều khiển ngắt trong khi chỉ thêm overhead tối thiểu cho truyền tải mạng. Một giao dịch NVMe-oF điển hình chỉ thêm 2-8 micro giây độ trễ so với NVMe cục bộ, đạt 95% hiệu năng SSD cục bộ qua các mạng được cấu hình đúng cách.³
Các tùy chọn truyền tải xác định đặc tính hiệu năng và độ phức tạp triển khai:
NVMe over RoCE v2 chiếm ưu thế trong các triển khai doanh nghiệp do tái sử dụng hạ tầng Ethernet. RoCE (RDMA over Converged Ethernet) cung cấp kernel bypass và truyền tải zero-copy, đạt độ trễ dưới 5 micro giây. Cấu hình Ethernet không mất gói sử dụng Priority Flow Control ngăn ngừa mất gói. Các switch Ethernet tiêu chuẩn hỗ trợ RoCE với firmware phù hợp. Triển khai yêu cầu điều chỉnh Quality of Service cẩn thận để ngăn ngừa tắc nghẽn.
NVMe over InfiniBand mang lại độ trễ thấp nhất ở mức 2-3 micro giây nhưng yêu cầu hạ tầng chuyên biệt. Kiểm soát luồng dựa trên credit của InfiniBand đảm bảo truyền tải không mất gói mà không có sự phức tạp của PFC. Quản lý tắc nghẽn tích hợp ngăn ngừa suy giảm hiệu năng dưới tải. Chi phí cao hơn giới hạn việc áp dụng cho các triển khai quan trọng về hiệu năng. Hỗ trợ native cho GPU Direct Storage tối đa hóa thông lượng.
NVMe over TCP cung cấp khả năng tương thích tối đa sử dụng mạng TCP/IP tiêu chuẩn. Triển khai chỉ bằng phần mềm không yêu cầu phần cứng đặc biệt. Độ trễ dao động từ 15-50 micro giây tùy thuộc vào điều kiện mạng. Kiểm soát tắc nghẽn và truyền lại của TCP thêm overhead. Phù hợp cho các tầng lưu trữ hướng dung lượng nơi chi phí quan trọng hơn hiệu năng.
NVMe over Fibre Channel tận dụng hạ tầng SAN hiện có trong môi trường doanh nghiệp. Truyền tải không mất gói và phân vùng của FC cung cấp cách ly lưu trữ. Độ trễ thường đo được 10-20 micro giây. Hiện tại giới hạn ở 32Gbps trong khi Ethernet đạt 400Gbps. Chủ yếu được sử dụng để chuyển đổi các môi trường FC legacy sang NVMe.
Thiết kế kiến trúc cho quy mô 100.000 GPU
Mở rộng NVMe-oF lên 100.000 GPU yêu cầu kiến trúc phân cấp với nhiều lớp tổng hợp:
Fabric lưu trữ Leaf-Spine: Các node lưu trữ kết nối với switch leaf ở tốc độ 100-200GbE. Mỗi leaf xử lý 32-48 node lưu trữ với oversubscription 2:1. Các switch spine kết nối các leaf sử dụng liên kết 400-800GbE. Lớp spine không chặn ngăn ngừa tắc nghẽn giữa các leaf. Triển khai điển hình sử dụng 4-8 spine cho dự phòng và băng thông.
Mở rộng dựa trên Pod: Tổ chức hạ tầng thành các pod 1.000-2.000 GPU cho các miền có thể quản lý được. Mỗi pod chứa fabric lưu trữ chuyên dụng với 20-40 node lưu trữ. Kết nối liên pod sử dụng liên kết DCI (Data Center Interconnect) tốc độ cao. Các pod mở rộng độc lập mà không ảnh hưởng đến các pod khác. Các miền lỗi giới hạn phạm vi ảnh hưởng của sự cố.
Cấu hình Node lưu trữ: Máy chủ hai socket với 24-36 ổ NVMe mỗi node. NIC 200GbE dual-port cho kết nối fabric dự phòng. 512GB-1TB RAM cho cache metadata và buffer. Khả năng offload phần cứng cho xử lý NVMe-oF. Lớp lưu trữ định nghĩa bằng phần mềm quản lý pool ổ đĩa.
Kiến trúc Namespace: Namespace toàn cục cung cấp view lưu trữ thống nhất trên tất cả các node. Các sub-namespace cách ly dữ liệu tenant hoặc ứng dụng. Tạo/xóa namespace động mà không gián đoạn. Thin provisioning ngăn ngừa lãng phí dung lượng. Chia sẻ namespace cho phép các workflow cộng tác.
Triển khai thực tế ở quy mô ByteDance: - 12 trung tâm dữ liệu với 8.000-10.000 GPU mỗi nơi - 2.500 node lưu trữ cung cấp 85PB dung lượng khả dụng - Mạng Clos 3 tầng với spine 400GbE - 180GB/s thông lượng tổng hợp mỗi rack - 5 micro giây độ trễ trung bình - Đạt 94% mức sử dụng lưu trữ
Các phương pháp triển khai tốt nhất
Các triển khai NVMe-oF thành công tuân theo các mẫu đã được thiết lập:
Cấu hình mạng xuất sắc: Bật jumbo frame (9000 MTU) toàn hệ thống để tăng hiệu quả. Cấu hình Priority Flow Control (PFC) trên tất cả các port switch để truyền tải không mất gói. Triển khai Enhanced Transmission Selection (ETS) cho phân bổ băng thông. Triển khai Data Center Bridging (DCB) cho cấu hình thống nhất. Giám sát thống kê pause frame của PFC để phát hiện tắc nghẽn. Tách biệt lưu lượng lưu trữ sử dụng VLAN hoặc overlay network.
Tối ưu hóa Quality of Service: Gán lưu lượng lưu trữ vào lớp ưu tiên cao nhất. Dự trữ tối thiểu 40% băng thông cho các luồng lưu trữ. Cấu hình weighted fair queuing cho các lớp lưu lượng. Triển khai rate limiting để ngăn các luồng đơn lẻ chiếm ưu thế. Giám sát sử dụng buffer để ngăn mất gói. Điều chỉnh các tham số QoS dựa trên mẫu workload.
Dự phòng và Tính sẵn sàng cao: Triển khai các node lưu trữ dual-homed đến các switch riêng biệt. Triển khai multipath I/O với các đường active-active. Cấu hình failover đường tự động trong 50ms hoặc ít hơn. Sử dụng consistent hashing cho phân phối dữ liệu. Duy trì sao chép 3 chiều hoặc erasure coding cho độ bền. Thiết kế dự phòng N+2 ở cấp độ thành phần.
Triển khai bảo mật: Bật IPsec hoặc TLS để mã hóa khi truyền. Triển khai kiểm soát truy cập dựa trên zone để cách ly. Sử dụng khóa xác thực cho các kết nối NVMe-oF. Triển khai microsegmentation để giới hạn di chuyển ngang. Kiểm toán tất cả truy cập lưu trữ để tuân thủ. Quét bảo mật định kỳ để tìm lỗ hổng.
Introl thiết kế và triển khai các kiến trúc NVMe-oF cho hạ tầng AI quy mô siêu lớn trên vùng phủ sóng toàn cầu của chúng tôi, với chuyên môn đã được chứng minh trong quản lý các hệ thống lưu trữ tách biệt hỗ trợ lên đến 100.000 GPU.⁴ Các đội ngũ của chúng tôi đã triển khai hơn 50 triển khai NVMe-oF với quy mô từ 1PB đến 100PB.
Các kỹ thuật tối ưu hóa hiệu năng
Đạt hiệu năng NVMe-oF tối đa yêu cầu tối ưu hóa có hệ thống:
Điều chỉnh CPU và Interrupt: Pin các interrupt NVMe-oF vào các core CPU chuyên dụng tránh overhead của scheduler. Tắt CPU frequency scaling để có hiệu năng nhất quán. Cấu hình NUMA affinity cho truy cập bộ nhớ cục bộ. Tăng interrupt coalescing để giảm sử dụng CPU. Bật adaptive interrupt moderation cho tối ưu hóa động. Giám sát sử dụng CPU để xác định bottleneck.
Quản lý bộ nhớ và Buffer: Phân bổ huge page cho các buffer NVMe-oF giảm TLB miss. Điều chỉnh cài đặt bộ nhớ kernel cho workload thông lượng cao. Cấu hình kích thước socket buffer phù hợp cho network stack. Triển khai memory pooling để giảm overhead phân bổ. Giám sát sử dụng băng thông bộ nhớ. Ngăn ngừa phân mảnh bộ nhớ thông qua phân bổ cẩn thận.
Tối ưu hóa Storage Stack: Căn chỉnh kích thước I/O với ranh giới page SSD để tăng hiệu quả. Cấu hình queue depth từ 256-1024 mỗi kết nối. Bật controller memory buffer (CMB) để giảm độ trễ. Triển khai I/O scheduling tối ưu cho đặc tính NVMe. Tắt các tính năng không cần thiết như journaling. Giám sát wear leveling và garbage collection của SSD.
Trí thông minh đặt workload: Triển khai thuật toán data locality giữ dữ liệu nóng gần compute. Sử dụng consistent hashing cho phân phối dữ liệu có thể dự đoán. Cân bằng dung lượng và hiệu năng trên các node lưu trữ. Di chuyển dữ liệu dựa trên mẫu truy cập. Cache dữ liệu truy cập thường xuyên trong các tầng nhanh hơn. Dự đoán mẫu truy cập tương lai sử dụng các mô hình ML.
Các chỉ số hiệu năng từ các triển khai production: - Random read 4KB: 15 triệu IOPS mỗi node lưu trữ - Sequential read 128KB: 180GB/s mỗi node lưu trữ - Độ trễ trung bình: 5-7 micro giây qua RoCE - Tail latency (p99.9): 25 micro giây - Overhead CPU: 8-12% cho các workload bão hòa
Khắc phục sự cố thường gặp
Các triển khai NVMe-oF gặp các thách thức đặc trưng yêu cầu giải pháp cụ thể:
Đỉnh độ trễ cao: Triệu chứng: Độ trễ tăng định kỳ từ 5μs lên 500μs Nguyên nhân: PFC storm, cạn kiệt buffer, TCP retransmission Giải pháp: Điều chỉnh ngưỡng PFC, tăng buffer switch, cách ly lưu lượng lưu trữ Giám sát: Theo dõi thời lượng và tần suất pause frame
Suy giảm thông lượng: Triệu chứng: Hiệu năng giảm từ 180GB/s xuống 50GB/s Nguyên nhân: Tắc nghẽn mạng, SSD thermal throttling, bottleneck CPU Giải pháp: Triển khai traffic shaping, cải thiện làm mát, scale out node lưu trữ Giám sát: Đo sử dụng mỗi liên kết và nhiệt độ SSD
Lỗi kết nối: Triệu chứng: Kết nối NVMe-oF ngắt ngẫu nhiên Nguyên nhân: Vấn đề xác thực, network flap, lỗi driver Giải pháp: Xác minh thông tin xác thực, kiểm tra cáp/optic, cập nhật driver/firmware Giám sát: Ghi log thay đổi trạng thái kết nối và bộ đếm lỗi
Mất cân bằng dung lượng: Triệu chứng: Một số node ở 95% dung lượng trong khi các node khác ở 40% Nguyên nhân: Đặt dữ liệu kém, workload lệch, rebalancing thất bại Giải pháp: Triển khai hashing tốt hơn, di chuyển dữ liệu chủ động, sửa automation Giám sát: Theo dõi dung lượng và phân phối IOPS mỗi node
Các case study triển khai thực tế
Meta - Hiện đại hóa hạ tầng huấn luyện: - Thách thức: 50.000 GPU với 60% mức sử dụng lưu trữ - Giải pháp: Triển khai NVMe-oF với 40PB lưu trữ tách biệt - Kiến trúc: RoCE v2 qua fabric Ethernet 200GbE - Kết quả: 90% mức sử dụng, huấn luyện mô hình nhanh hơn 2,1 lần - Đầu tư: Tiết kiệm 45 triệu đô la trong mua sắm lưu trữ - Đổi mới chính: Đặt dữ liệu dự đoán sử dụng mẫu truy cập
Công ty dịch vụ tài chính - Phân tích dữ liệu giao dịch: - Quy mô: 5.000 GPU xử lý 10TB/ngày dữ liệu thị trường - Lưu trữ: Pool NVMe-oF 5PB với truy cập dưới mili giây - Mạng: Fabric InfiniBand cho độ trễ xác định - Hiệu năng: Đạt độ trễ trung bình 3 micro giây - Lợi ích: Phân tích thời gian thực dữ liệu lịch sử 20 năm - Kiến trúc: Lưu trữ phân tầng với NVMe và Optane PMem
Công ty xe tự lái - Nền tảng mô phỏng: - Bộ dữ liệu: 100PB cảnh quay lái xe và dữ liệu cảm biến - Hạ tầng: 8.000 GPU với lưu trữ tập trung - Công nghệ: NVMe-oF qua TCP để tối ưu chi phí - Thông lượng: 500GB/s tổng
[Nội dung bị cắt ngắn cho bản dịch]