Thiết Kế Topology Mạng Cụm GPU: Kiến Trúc Fat-Tree, Dragonfly và Tối Ưu Hóa Rail

DGX SuperPOD chỉ định fat-tree ba tầng với Quantum-2 InfiniBand (400Gb/s). Nghiên cứu của Meta phát hiện lỗi cấu hình mạng gây ra 10,7% các sự cố nghiêm trọng trong công việc GPU. Băng thông bisection đầy đủ...

Thiết Kế Topology Mạng Cụm GPU: Kiến Trúc Fat-Tree, Dragonfly và Tối Ưu Hóa Rail

Thiết Kế Topology Mạng Cụm GPU: Kiến Trúc Fat-Tree, Dragonfly và Tối Ưu Hóa Rail

Cập nhật ngày 11 tháng 12 năm 2025

Cập nhật tháng 12 năm 2025: DGX SuperPOD chỉ định topology mạng fat-tree ba tầng với switch Quantum-2 InfiniBand ở tốc độ 400 Gb/s mỗi cổng. Nghiên cứu của Meta phát hiện lỗi cấu hình mạng gây ra 10,7% các sự cố công việc GPU nghiêm trọng. Băng thông bisection đầy đủ rất quan trọng cho huấn luyện phân tán khi các mẫu giao tiếp thay đổi động. TPU pods của Google sử dụng torus 3D; AWS Trainium sử dụng các topology được tối ưu hóa theo khối lượng công việc.

Kiến trúc tham chiếu DGX SuperPOD của NVIDIA chỉ định topology mạng fat-tree ba tầng kết nối tối đa 32 hệ thống DGX sử dụng switch Quantum-2 InfiniBand ở tốc độ 400 Gb/s mỗi cổng.[^1] Kiến trúc này cung cấp băng thông bisection đầy đủ, nghĩa là băng thông tổng hợp giữa hai nửa bất kỳ của cụm bằng tổng băng thông vào một trong hai nửa. Topology fat-tree chiếm ưu thế trong các triển khai cụm GPU vì chúng cung cấp hiệu suất có thể dự đoán được bất kể cặp GPU nào giao tiếp, một thuộc tính quan trọng cho huấn luyện phân tán khi các mẫu giao tiếp thay đổi động.

Lựa chọn topology mạng ảnh hưởng trực tiếp đến hiệu suất huấn luyện, chi phí và độ phức tạp vận hành. Một nghiên cứu của Meta phát hiện rằng lỗi cấu hình mạng gây ra 10,7% các sự cố công việc nghiêm trọng trong các cụm GPU của họ, với tắc nghẽn phụ thuộc vào topology góp phần vào sự biến đổi hiệu suất.[^2] TPU pods của Google sử dụng topology torus 3D cho phép kết nối trực tiếp giữa các accelerator lân cận, trong khi các cụm AWS Trainium sử dụng các topology khác nhau được tối ưu hóa cho các mẫu khối lượng công việc của họ.[^3] Hiểu các đánh đổi topology cho phép các tổ chức lựa chọn kiến trúc phù hợp với yêu cầu khối lượng công việc cụ thể và ràng buộc ngân sách của họ.

Nguyên lý cơ bản của topology fat-tree

Topology fat-tree bắt nguồn từ công trình năm 1985 của Charles Leiserson cho thấy rằng các cấu trúc cây có thể đạt được băng thông bisection đầy đủ nếu dung lượng liên kết tăng về phía gốc.[^4] Các triển khai hiện đại sử dụng các liên kết có dung lượng bằng nhau xuyên suốt, đạt được băng thông đầy đủ thông qua nhiều đường dẫn song song thay vì các liên kết dày hơn.

Kiến trúc fat-tree ba tầng

Một fat-tree ba tầng bao gồm các switch lá kết nối đến máy chủ, các switch spine tổng hợp lưu lượng lá, và các switch core cung cấp kết nối đầy đủ giữa các spine.[^5] Mỗi switch lá kết nối đến mọi switch spine, và mỗi spine kết nối đến mọi switch core. Mạng lưới các kết nối tạo ra nhiều đường dẫn chi phí bằng nhau giữa hai máy chủ bất kỳ.

NVIDIA khuyến nghị fat-tree cho các cụm DGX do đặc tính độ trễ và băng thông có thể dự đoán được.[^6] Topology đảm bảo rằng các hoạt động tập thể như all-reduce có hiệu suất nhất quán bất kể vị trí GPU. Các công việc huấn luyện không cần xem xét topology mạng khi lập lịch, đơn giản hóa việc quản lý cụm.

Tỷ lệ oversubscription

Băng thông bisection đầy đủ yêu cầu dung lượng switch đắt đỏ ở các tầng trên. Nhiều triển khai chấp nhận oversubscription, trong đó băng thông uplink tổng hợp từ các tầng thấp hơn vượt quá dung lượng khả dụng ở các tầng trên.[^7] Tỷ lệ oversubscription 2:1 có nghĩa là chỉ một nửa lưu lượng có thể đồng thời đi qua các tầng trên.

Oversubscription phù hợp với các khối lượng công việc có tính cục bộ, trong đó hầu hết giao tiếp xảy ra trong các rack hoặc pod. Tuy nhiên, huấn luyện phân tán với các mẫu giao tiếp all-to-all bão hòa các liên kết bị oversubscription, gây ra tắc nghẽn và suy giảm hiệu suất. Các cụm huấn luyện AI thường yêu cầu thiết kế không oversubscription mặc dù chi phí cao hơn.[^8]

Radix và khả năng mở rộng

Radix của switch xác định số cổng mỗi switch cung cấp, ảnh hưởng đến cả quy mô và chi phí. Một switch 64 cổng xây dựng fat-tree ba tầng với 32 downlink và 32 uplink có thể mở rộng đến 32.768 endpoint.[^9] Các switch radix cao hơn giảm số lượng switch cần thiết nhưng tăng chi phí mỗi switch.

Các switch Quantum-2 của NVIDIA cung cấp 64 cổng ở tốc độ 400 Gb/s, cho phép triển khai fat-tree quy mô lớn với số lượng switch hợp lý.[^10] Thế hệ Quantum-X800 sắp tới tăng tốc độ cổng lên 800 Gb/s, gấp đôi băng thông tổng hợp mà không thay đổi cấu trúc topology.

Topology tối ưu hóa rail

Topology tối ưu hóa rail xuất hiện từ nhận thức rằng các máy chủ GPU chứa nhiều GPU chia sẻ các kết nối nội bộ tốc độ cao. Thay vì xử lý mỗi GPU độc lập, các thiết kế tối ưu hóa rail căn chỉnh các kết nối mạng với vị trí GPU trong máy chủ.[^11]

Hiểu về GPU rail

Một hệ thống DGX H100 chứa tám GPU được kết nối qua NVLink, với mỗi GPU cũng kết nối đến một card giao diện mạng (NIC).[^12] Tám NIC tương ứng với tám "rail" trải rộng khắp cụm. Rail 0 kết nối GPU 0 từ mọi máy chủ, rail 1 kết nối GPU 1, và tiếp tục như vậy. Giao tiếp trong một rail đi qua ít hop switch hơn so với giao tiếp cross-rail.

NVIDIA NVLink Switch kết nối các GPU trong và giữa các máy chủ với băng thông tổng hợp 900 GB/s mỗi GPU.[^13] Miền NVLink xử lý hầu hết giao tiếp GPU-đến-GPU, với mạng InfiniBand xử lý giao tiếp giữa các miền NVLink. Topology tối ưu hóa rail căn chỉnh các đường dẫn InfiniBand với các miền NVLink để giảm thiểu lưu lượng InfiniBand.

Các cân nhắc triển khai

Các triển khai tối ưu hóa rail yêu cầu cáp cẩn thận để duy trì căn chỉnh rail trên các rack và pod.[^14] Các kết nối đấu dây sai phá vỡ tính cục bộ rail, buộc lưu lượng đi qua các hop switch bổ sung. Kỷ luật quản lý cáp rất cần thiết để đạt được lợi ích tối ưu hóa rail.

Topology giảm yêu cầu switch so với fat-tree đầy đủ ở quy mô tương đương. Tiết kiệm đến từ việc loại bỏ dung lượng chuyển mạch cross-rail mà các khối lượng công việc tối ưu hóa rail hiếm khi sử dụng.[^15] Các tổ chức phải xác minh rằng các mẫu khối lượng công việc của họ thực sự thể hiện tính cục bộ rail trước khi cam kết với các thiết kế tối ưu hóa rail.

Topology dragonfly

Topology dragonfly tổ chức các switch thành các nhóm với kết nối nội nhóm dày đặc và các liên kết liên nhóm thưa thớt.[^16] Thiết kế giảm số lượng switch so với fat-tree trong khi duy trì độ dài đường dẫn hợp lý giữa hai endpoint bất kỳ.

Cấu trúc dragonfly

Một dragonfly bao gồm các nhóm, mỗi nhóm chứa nhiều switch được kết nối đầy đủ trong nhóm. Các liên kết toàn cục kết nối mỗi switch đến các switch trong các nhóm khác.[^17] Hai endpoint bất kỳ kết nối thông qua tối đa ba hop: switch cục bộ đến switch nhóm đến switch nhóm từ xa đến đích.

Số hop giảm làm giảm độ trễ cho các triển khai quy mô lớn. Ít switch hơn giảm chi phí vốn và tiêu thụ điện năng. Tuy nhiên, dragonfly cung cấp băng thông bisection thấp hơn fat-tree, làm cho nó dễ bị tắc nghẽn hơn dưới một số mẫu lưu lượng nhất định.[^18]

Yêu cầu định tuyến thích ứng

Hiệu suất dragonfly phụ thuộc nhiều vào định tuyến thích ứng phân phối lưu lượng trên các đường dẫn khả dụng.[^19] Định tuyến tĩnh tập trung lưu lượng trên các liên kết cụ thể, gây ra tắc nghẽn trong khi các đường dẫn khác vẫn không được sử dụng đầy đủ. Các switch phải giám sát việc sử dụng liên kết và chuyển lưu lượng động sang các đường dẫn ít tải hơn.

NVIDIA InfiniBand hỗ trợ định tuyến thích ứng phù hợp cho các triển khai dragonfly.[^20] Khả năng này yêu cầu cấu hình và kiểm tra để đảm bảo các thuật toán định tuyến phản ứng phù hợp với các mẫu lưu lượng khối lượng công việc. Định tuyến thích ứng được cấu hình sai có thể hoạt động kém hơn định tuyến tĩnh.

Độ nhạy với khối lượng công việc

Dragonfly phù hợp với các khối lượng công việc có mẫu giao tiếp cục bộ giữ hầu hết lưu lượng trong các nhóm.[^21] Các khối lượng công việc tạo ra lưu lượng ngẫu nhiên đồng đều trên tất cả các endpoint gây áp lực cho các liên kết liên nhóm vượt quá dung lượng của chúng. Topology hoạt động tốt cho phục vụ suy luận với ái lực yêu cầu nhưng có thể gặp khó khăn với huấn luyện quy mô lớn sử dụng các collective toàn cục.

Các tổ chức đánh giá dragonfly nên mô tả các mẫu giao tiếp khối lượng công việc dự kiến trước khi triển khai. Các công cụ mô phỏng có thể mô hình hóa hiệu suất dự kiến dưới lưu lượng thực tế, xác định các điểm tắc nghẽn tiềm năng yêu cầu điều chỉnh topology.[^22]

Topology torus và mesh

Topology torus kết nối các nút theo các mẫu lưới đều đặn với các kết nối vòng lại ở các ranh giới. TPU pods của Google sử dụng topology torus 3D cung cấp kết nối hàng xóm trực tiếp mà không cần chuyển mạch.[^23]

Mạng trực tiếp so với mạng chuyển mạch

Mạng torus kết nối mỗi nút trực tiếp đến các hàng xóm, loại bỏ các switch khỏi đường dẫn giao tiếp.[^24] Kết nối trực tiếp giảm độ trễ cho giao tiếp hàng xóm-đến-hàng xóm phổ biến trong nhiều thuật toán song song. Tuy nhiên, giao tiếp giữa các nút xa đi qua nhiều nút trung gian, tăng độ trễ và tiêu thụ băng thông tại mỗi hop.

Mạng chuyển mạch như fat-tree cung cấp độ trễ bằng nhau giữa hai endpoint bất kỳ bất kể vị trí vật lý. Tính đồng nhất đơn giản hóa lập trình và cân bằng tải. Mạng torus yêu cầu placement nhận biết topology để giảm thiểu khoảng cách giao tiếp.[^25]

Lựa chọn chiều

Topology torus chiều cao hơn giảm đường kính (số hop tối đa) với chi phí là tăng số lượng kết nối mỗi nút.[^26] Một torus 3D với N nút mỗi chiều có đường kính 3N/2, trong khi torus 2D có đường kính N. Lựa chọn torus 3D của Google cân bằng số lượng kết nối với đường kính.

Các ràng buộc vật lý ảnh hưởng đến việc lựa chọn chiều. Một torus 2D ánh xạ tự nhiên vào các hàng và cột trong phòng máy. Một torus 3D yêu cầu các rack xếp chồng hoặc các kết nối trải rộng khoảng cách đáng kể. Độ dài cáp trong torus chiều cao có thể trở nên có vấn đề ở quy mô lớn.[^27]

Khung lựa chọn topology

Lựa chọn topology mạng yêu cầu đánh giá các đặc điểm khối lượng công việc, yêu cầu quy mô, ràng buộc ngân sách và khả năng vận hành.

Phân tích khối lượng công việc

Các khối lượng công việc khác nhau gây áp lực cho mạng khác nhau. Huấn luyện các mô hình ngôn ngữ lớn tạo ra các mẫu giao tiếp all-to-all yêu cầu băng thông bisection cao.[^28] Phục vụ suy luận với batching thể hiện giao tiếp cục bộ hơn trong các nhóm GPU phục vụ yêu cầu. Tiền xử lý dữ liệu có thể tạo ra các mẫu shuffle với giao tiếp ngẫu nhiên.

Các tổ chức nên profile các khối lượng công việc dự kiến để hiểu các mẫu giao tiếp. Giám sát cụm sản xuất tiết lộ các mẫu lưu lượng thực tế cho các khối lượng công việc hiện có. Các loại khối lượng công việc mới có thể yêu cầu ước tính dựa trên phân tích thuật toán hoặc hướng dẫn của nhà cung cấp.

Các cân nhắc về quy mô

Các cụm nhỏ hàng chục GPU có thể không yêu cầu tối ưu hóa topology tinh vi. Một switch radix cao duy nhất kết nối tất cả GPU cung cấp kết nối đầy đủ mà không cần phức tạp đa tầng.[^29] Lựa chọn topology quan trọng nhất đối với các cụm trải rộng hàng trăm đến hàng nghìn GPU nơi chi phí chuyển mạch và đường cáp trở nên đáng kể.

Tăng trưởng tương lai ảnh hưởng đến việc lựa chọn topology. Một fat-tree mở rộng bằng cách thêm các switch lá và máy chủ trong khi duy trì băng thông bisection đầy đủ. Một dragonfly mở rộng bằng cách thêm các nhóm nhưng có thể yêu cầu tái cân bằng các liên kết toàn cục. Lập kế hoạch cho tăng trưởng tránh các thay đổi topology làm gián đoạn hoạt động.[^30]

Các yếu tố kinh tế

Chi phí switch và cáp thay đổi đáng kể giữa các topology. Fat-tree yêu cầu nhiều switch hơn dragonfly ở quy mô tương đương. Các thiết kế tối ưu hóa rail giảm chuyển mạch InfiniBand nhưng yêu cầu các hệ thống NVLink Switch.[^31] Phân tích tổng chi phí phải bao gồm switch, cáp, quang học, điện, làm mát và không gian rack.

Chi phí vận hành cũng thay đổi. Các topology phức tạp yêu cầu khả năng giám sát và khắc phục sự cố tinh vi hơn. Đào tạo nhân viên vận hành về các cân nhắc cụ thể của topology tăng chi phí. Các topology đơn giản hơn có thể biện minh cho các đánh đổi hiệu suất khiêm tốn thông qua giảm gánh nặng vận hành.

Triển khai và lắp đặt

Triển khai topology mạng yêu cầu lập kế hoạch cẩn thận bao gồm cơ sở hạ tầng vật lý, cấu hình chuyển mạch và kiểm tra xác nhận.

Lập kế hoạch cơ sở hạ tầng vật lý

Các triển khai mạng tốc độ cao yêu cầu cáp có cấu trúc hỗ trợ hàng nghìn kết nối ở tốc độ 400 Gb/s hoặc cao hơn.[^32] Định tuyến cáp phải giảm thiểu vi phạm bán kính uốn và suy giảm tín hiệu. Các sắp xếp lối nóng/lối lạnh phải phù hợp với các đường dẫn cáp mà không cản trở

[Nội dung bị cắt ngắn cho bản dịch]

Yêu cầu báo giá_

Hãy cho chúng tôi biết về dự án của bạn và chúng tôi sẽ phản hồi trong vòng 72 giờ.

> TRUYỀN_TẢI_HOÀN_TẤT

Đã Nhận Yêu cầu_

Cảm ơn bạn đã gửi yêu cầu. Đội ngũ của chúng tôi sẽ xem xét và phản hồi trong vòng 72 giờ.

ĐANG XẾP HÀNG XỬ LÝ