Kiến trúc đường ống dữ liệu AI: Cung cấp dữ liệu huấn luyện quy mô Petabyte với tốc độ 100GB/s
Cập nhật ngày 11 tháng 12 năm 2025
Cập nhật tháng 12 năm 2025: Dịch vụ Tiền xử lý Dữ liệu (DPP) của Meta hiện loại bỏ tình trạng tắc nghẽn dữ liệu trên các cụm huấn luyện quy mô exabyte. WEKApod đạt thông lượng 720GB/s từ 8 node lưu trữ cung cấp năng lượng cho 768 GPU H100. SSD NVMe PCIe Gen5 vượt ngưỡng 14GB/s đọc tuần tự đang trở thành tiêu chuẩn cho tầng lưu trữ huấn luyện. Các feature store và kiến trúc cache phân tầng giảm độ trễ truy cập dữ liệu lạnh xuống 10 lần.
Meta phát hiện ra rằng 56% chu kỳ GPU bị đình trệ, chờ đợi dữ liệu huấn luyện.[^1] Công ty lưu trữ hàng exabyte dữ liệu huấn luyện trong Tectonic, hệ thống tệp phân tán của họ, nhưng thiếu dung lượng lưu trữ để giữ các tập dữ liệu quy mô petabyte cục bộ với phần cứng huấn luyện.[^2] Giải pháp yêu cầu xây dựng Dịch vụ Tiền xử lý Dữ liệu (DPP) có khả năng mở rộng để loại bỏ hoàn toàn tình trạng tắc nghẽn dữ liệu. Các tổ chức huấn luyện mô hình lớn đối mặt với cùng một thách thức cơ bản: các GPU mạnh nhất cũng không thể làm gì khi chờ đợi dữ liệu đầu vào.
Hệ thống lưu trữ cung cấp dữ liệu cho việc huấn luyện AI quyết định liệu các khoản đầu tư GPU có mang lại lợi nhuận kỳ vọng hay không. WEKApod đạt thông lượng trên 720GB/s và 18 triệu IOPS với độ trễ dưới 150 micro giây, cung cấp năng lượng cho 768 GPU H100 chỉ từ 8 node lưu trữ.[^3] Siêu máy tính RSC của Meta sử dụng 46 petabyte bộ nhớ đệm để duy trì nguồn cung cấp cho GPU.[^4] Việc huấn luyện GPT-4 yêu cầu khoảng 25.000 GPU A100 xử lý 13 nghìn tỷ token trong 90-100 ngày.[^5] Ở quy mô lớn, kiến trúc đường ống dữ liệu trở nên quan trọng như kiến trúc tính toán.
Thách thức của đường ống dữ liệu
Các mô hình ngôn ngữ lớn yêu cầu truy cập vào hàng petabyte dữ liệu chất lượng cao đã được tiền xử lý. Không có hệ thống lưu trữ nhanh và đáng tin cậy, ngay cả những GPU mạnh nhất cũng phải ngồi chờ dữ liệu đầu vào.[^6] Tầng hiệu suất của hạ tầng lưu trữ cho phép dòng chảy dữ liệu liền mạch qua các giai đoạn đường ống đòi hỏi tính toán cao: chuẩn hóa, tokenization và huấn luyện.
Một đường ống machine learning điển hình bao gồm tiền xử lý dữ liệu được quản lý bởi CPU, huấn luyện mô hình được chuyển sang GPU, và hậu xử lý quay về CPU.[^7] Tắc nghẽn xảy ra khi truyền dữ liệu giữa RAM CPU và DRAM GPU. Sự không khớp giữa thông lượng lưu trữ, băng thông mạng, tính toán tiền xử lý và mức tiêu thụ GPU tạo ra tình trạng đình trệ lãng phí năng lực accelerator đắt tiền.
Kiến trúc lưu trữ và nhập dữ liệu của Meta
Đường ống DSI end-to-end của Meta bao gồm một kho dữ liệu trung tâm được xây dựng trên lưu trữ phân tán và Dịch vụ Tiền xử lý Dữ liệu có khả năng mở rộng độc lập với tính toán huấn luyện.[^8] Kiến trúc tách biệt lưu trữ, tiền xử lý và huấn luyện thành các tầng có thể mở rộng riêng biệt.
Tectonic đóng vai trò là hệ thống tệp phân tán quy mô exabyte của Meta, cung cấp hạ tầng lưu trữ tách rời cho các mô hình huấn luyện AI.[^9] Công ty huấn luyện các mô hình trên tập dữ liệu quy mô từ terabyte đến petabyte mà không cần dung lượng lưu trữ cục bộ tương ứng với quy mô đó. Lưu trữ tách rời cho phép phân bổ tài nguyên linh hoạt nhưng yêu cầu mạng băng thông cao kết nối lưu trữ với tính toán.
DPP Master nhận các đặc tả phiên chứa các bảng tập dữ liệu, phân vùng, các feature cần thiết và các thao tác biến đổi.[^10] Master chia nhỏ khối lượng công việc tiền xử lý trên hàng petabyte dữ liệu thành các đơn vị công việc độc lập, khép kín gọi là split. DPP Worker yêu cầu split từ Master và thực thi các biến đổi tiền xử lý, tách rời thông lượng tiền xử lý khỏi năng lực CPU của node huấn luyện.
Phân cấp lưu trữ và bộ nhớ đệm
Meta hướng tới các giải pháp lưu trữ phân tầng kết hợp HDD và SSD, với SSD đóng vai trò tầng bộ nhớ đệm cho các feature được tái sử dụng nhiều.[^11] Không phải tất cả dữ liệu huấn luyện đều yêu cầu cùng mẫu truy cập: các feature được truy cập thường xuyên hưởng lợi từ lưu trữ flash trong khi dữ liệu lạnh vẫn nằm trên phương tiện tối ưu hóa dung lượng.
Chiến lược bộ nhớ đệm giảm chi phí lưu trữ mà không hy sinh thông lượng huấn luyện. Dữ liệu nóng nằm trong các tầng nhanh phục vụ phần lớn các lần đọc trong khi dữ liệu lạnh được stream từ lưu trữ dung lượng trong các epoch đầu tiên. Hiểu các mẫu truy cập dữ liệu cho phép đưa ra quyết định phân tầng thông minh cân bằng chi phí với hiệu suất.
Công nghệ lưu trữ cho huấn luyện AI
Các công nghệ lưu trữ khác nhau phục vụ các vai trò khác nhau trong đường ống dữ liệu AI. Sự lựa chọn phụ thuộc vào mẫu truy cập, yêu cầu dung lượng và ràng buộc ngân sách.
Hệ thống tệp song song
Các hệ thống tệp song song như Lustre và GPFS mang lại hiệu suất cực cao với khả năng đồng thời lớn, khiến chúng lý tưởng cho các khối lượng công việc AI đồng bộ có I/O chuyên sâu.[^12] Các hệ thống này phân tán dữ liệu qua nhiều server lưu trữ, cung cấp băng thông tổng hợp mở rộng theo số lượng server.
Google Cloud cung cấp Managed Lustre như một bộ nhớ đệm hiệu suất cao trên Cloud Storage, tăng tốc các khối lượng công việc AI yêu cầu thông lượng cực cao và hoạt động I/O độ trễ thấp.[^13] Các tổ chức nhập và xuất dữ liệu giữa Managed Lustre và Cloud Storage, sử dụng hệ thống tệp song song như một tầng hiệu suất cho huấn luyện đang hoạt động trong khi duy trì dữ liệu trong object storage để đảm bảo độ bền.
Lưu trữ NVMe
SSD NVMe PCIe Gen5 vượt ngưỡng 14 GB/s thông lượng đọc tuần tự và xử lý hàng triệu IOPS đọc ngẫu nhiên.[^14] Công nghệ này loại bỏ lưu trữ như một nút thắt cổ chai khi huấn luyện các mô hình AI trên hàng chục terabyte dữ liệu. Việc áp dụng PCIe Gen5 trong suốt 2024-2025 đã tăng gấp đôi thông lượng trên mỗi lane lên khoảng 4 GB/s mỗi lane, đạt 64 GB/s trong cấu hình x16.
NVMe-oF (NVMe over Fabrics) mở rộng hiệu suất NVMe qua mạng, cho phép kiến trúc lưu trữ tách rời duy trì độ trễ gần như cục bộ. Các cụm huấn luyện truy cập các pool lưu trữ NVMe chia sẻ mà không hy sinh các ưu điểm hiệu suất của ổ đĩa gắn trực tiếp.
Object storage cho dữ liệu lạnh
Object storage cung cấp dung lượng hiệu quả về chi phí cho các tập dữ liệu quy mô petabyte có thể chấp nhận độ trễ cao hơn. Một công ty thương mại điện tử lớn lưu trữ hàng trăm petabyte dữ liệu huấn luyện trong AWS S3, với các khối lượng công việc huấn luyện AI/ML được phân phối qua nhiều vùng AWS và trung tâm dữ liệu tại chỗ.[^15]
Object storage hoạt động tốt nhất cho các mẫu nhập dữ liệu theo lô khi các công việc huấn luyện tải dữ liệu vào các tầng nhanh hơn trước khi bắt đầu xử lý chuyên sâu. Kinh tế học ưu tiên object storage cho lưu trữ và sao lưu trong khi các tầng hiệu suất xử lý I/O huấn luyện đang hoạt động.
Tiền xử lý ở quy mô lớn
Tiền xử lý dữ liệu tiêu tốn tài nguyên tính toán đáng kể và thường trở thành nút thắt cổ chai ngăn cản việc sử dụng GPU đầy đủ. Kinh nghiệm của Meta cho thấy CPU trên các node huấn luyện không thể tiền xử lý dữ liệu đủ nhanh để phục vụ GPU, thúc đẩy kiến trúc DPP phân tán.[^16]
Worker tiền xử lý phân tán
Kiến trúc DPP mở rộng worker tiền xử lý độc lập với các node huấn luyện.[^17] Thêm năng lực tiền xử lý chỉ yêu cầu thêm các instance worker, không cần sửa đổi hạ tầng huấn luyện. Sự tách biệt cho phép các tổ chức điều chỉnh quy mô tính toán tiền xử lý phù hợp cho các tập dữ liệu cụ thể và độ phức tạp biến đổi.
Các instance worker thực thi các thao tác biến đổi bao gồm làm sạch, chuẩn hóa, tokenization và trích xuất feature. Các biến đổi phức tạp yêu cầu nhiều tính toán tiền xử lý hơn trên mỗi đơn vị thông lượng huấn luyện. Các biến đổi đơn giản có thể theo kịp huấn luyện bằng tài nguyên tiền xử lý tối thiểu.
Tiền xử lý được tăng tốc
Các nỗ lực trong ngành ngày càng thực thi các thao tác biến đổi tiền xử lý trên accelerator thay vì CPU.[^18] NVIDIA DALI (Data Loading Library) chuyển việc giải mã hình ảnh, tăng cường và chuyển đổi định dạng sang GPU. Tiền xử lý được tăng tốc loại bỏ các nút thắt cổ chai CPU cho đường ống huấn luyện hình ảnh và video.
Chuyển tiền xử lý sang GPU yêu cầu thiết kế đường ống cẩn thận để tránh tạo ra các nút thắt cổ chai mới. Bộ nhớ GPU được sử dụng cho tiền xử lý làm giảm bộ nhớ có sẵn cho các tham số và activation của mô hình. Sự đánh đổi giữa tăng tốc tiền xử lý và năng lực huấn luyện phụ thuộc vào đặc điểm khối lượng công việc.
Feature store
Google khuyến nghị sử dụng Vertex AI Feature Store cho các feature sẵn sàng phục vụ trực tuyến.[^19] Feature store tính toán trước và cache các giá trị feature, loại bỏ việc tính toán lặp lại qua các lần chạy huấn luyện. Lên lịch các công việc feature engineering để tính toán các giá trị feature mới thường xuyên theo nhịp độ yêu cầu đảm bảo dữ liệu mới mà không có overhead tiền xử lý thời gian thực.
Feature store đặc biệt có giá trị cho các mô hình đề xuất nơi độ phức tạp tính toán feature vượt quá ngân sách thời gian cho mỗi yêu cầu. Cả huấn luyện và suy luận đều có thể truy cập cùng các feature đã tính toán trước, duy trì tính nhất quán giữa phát triển và sản xuất.
Kiến trúc mạng cho đường ống dữ liệu
Các kết nối băng thông cao cung cấp nền tảng cho kiến trúc lưu trữ tách rời. InfiniBand và RoCE (RDMA over Converged Ethernet) mang lại độ trễ cực thấp và thông lượng cao cần thiết cho huấn luyện phân tán qua các cụm GPU và truy cập tập dữ liệu nhanh chóng.[^20]
Thiết kế mạng lưu trữ
Mạng lưu trữ phải khớp thông lượng đọc tổng hợp với mức tiêu thụ huấn luyện GPU. Một cụm 1.000 GPU H100 huấn luyện khối lượng công việc đói dữ liệu có thể yêu cầu hàng chục gigabyte mỗi giây thông lượng lưu trữ bền vững. Dung lượng mạng giữa các tầng lưu trữ và tính toán phải vượt quá yêu cầu này với dư địa cho các mẫu burst.
Topology mạng ảnh hưởng đến thông lượng có thể đạt được. Các topology fat-tree cung cấp băng thông bisection đầy đủ nhưng tốn kém hơn các thiết kế oversubscribed. Các khối lượng công việc huấn luyện có I/O lưu trữ nặng được hưởng lợi từ các fabric non-blocking loại bỏ tắc nghẽn mạng như một nút thắt cổ chai.
Tối ưu hóa truyền dữ liệu
Các kỹ thuật tối ưu hóa truyền dữ liệu bao gồm I/O song song, prefetching, caching, nén và tối ưu hóa data locality đảm bảo di chuyển dữ liệu hiệu quả giữa các hệ thống lưu trữ và các node tính toán.[^21] Prefetching dự đoán các yêu cầu dữ liệu và chuẩn bị dữ liệu trước khi các node tính toán yêu cầu. Nén giảm yêu cầu băng thông mạng với chi phí chu kỳ tính toán.
Gộp dữ liệu giảm tần suất giao dịch, phân bổ overhead trên mỗi yêu cầu qua các lần truyền lớn hơn.[^22] Lọc dữ liệu giảm thiểu kích thước mẫu trước khi gửi đến GPU, giảm cả đọc lưu trữ và truyền mạng. Sự kết hợp của các kỹ thuật có thể giảm đáng kể yêu cầu băng thông lưu trữ hiệu quả.
Xây dựng đường ống dữ liệu ở quy mô lớn
Các tổ chức triển khai hạ tầng huấn luyện quy mô petabyte cần các phương pháp tiếp cận tích hợp cho lưu trữ, tiền xử lý và mạng phù hợp với năng lực tính toán GPU.
Lập kế hoạch dung lượng
Lập kế hoạch dung lượng lưu trữ phải tính đến sự tăng trưởng dữ liệu huấn luyện cùng với việc mở rộng mô hình. Các tập dữ liệu huấn luyện tăng lên khi các tổ chức tích lũy nhiều dữ liệu hơn và theo đuổi các mô hình lớn hơn yêu cầu nhiều token hơn. Yêu cầu dung lượng tăng thêm khi các tổ chức giữ lại nhiều phiên bản tập dữ liệu để đảm bảo khả năng tái tạo.
Lập kế hoạch thông lượng khó khăn hơn lập kế hoạch dung lượng. Mối quan hệ giữa kích thước mô hình, kích thước batch và yêu cầu thông lượng dữ liệu thay đổi theo kiến trúc và cấu hình huấn luyện. Benchmark các khối lượng công việc cụ thể trên hạ tầng mục tiêu cung cấp các yêu cầu thông lượng đáng tin cậy nhất.
Chuyên môn triển khai hạ tầng
Độ phức tạp hạ tầng đường ống dữ liệu ngang bằng hoặc vượt quá độ phức tạp hạ tầng tính toán. Các hệ thống lưu trữ, mạng tốc độ cao và dịch vụ tiền xử lý phải tích hợp liền mạch với các cụm GPU. Lỗi cấu hình trong bất kỳ thành phần nào tạo ra nút thắt cổ chai lãng phí đầu tư GPU.
Mạng lưới 550 kỹ sư hiện trường của Introl chuyên về các triển khai hạ tầng tích hợp mà huấn luyện AI quy mô lớn yêu cầu.[^23] Công ty xếp hạng #14 trên Inc. 5000 năm 2025 với mức tăng trưởng 9.594% trong ba năm, phản ánh nhu cầu về dịch vụ hạ tầng chuyên nghiệp.[^24] Các tổ chức xây dựng cụm huấn luyện được hưởng lợi từ chuyên môn triển khai giải quyết lưu trữ, mạng và tính toán như một hệ thống tích hợp.
Quản lý các triển khai đạt 100.000 GPU với hơn 40.000 dặm hạ tầng mạng cáp quang yêu cầu quy mô vận hành phù hợp với các sáng kiến huấn luyện lớn nhất