InfiniBand vs Ethernet cho Cụm GPU: Hướng Dẫn Quyết Định Kiến Trúc Mạng 800G
Cập nhật ngày 8 tháng 12 năm 2025
Cập nhật tháng 12 năm 2025: NVIDIA Spectrum-X 800G Ethernet hiện đã xuất xưởng và được xác nhận cho các triển khai Blackwell, thu hẹp lợi thế của InfiniBand cho các khối lượng công việc cụ thể. NDR 400G InfiniBand vẫn chiếm ưu thế cho các cụm huấn luyện, với XDR 800G đang được triển khai. Ultra Ethernet Consortium đã phát hành đặc tả UEC 1.0 vào năm 2024, với các sản phẩm tuân thủ dự kiến vào 2025-2026. Mạng cụm AI ngày càng trở nên lai—InfiniBand cho huấn luyện, Ethernet cho suy luận. Quang học 1.6T bắt đầu xuất hiện trong lộ trình cho 2026-2027.
Mạng kết nối 10.000 GPU quyết định liệu chúng hoạt động như một siêu máy tính thống nhất hay chỉ là một tập hợp đắt đỏ các bộ xử lý riêng biệt, tuy nhiên hầu hết các đội ngũ hạ tầng đưa ra quyết định trị giá 50 triệu đô la này dựa trên marketing của nhà cung cấp thay vì phân tích kỹ thuật.¹ Meta đã chuẩn hóa trên Ethernet sau khi phát hiện rằng lợi thế hiệu suất 15% của InfiniBand không thể biện minh cho tổng chi phí sở hữu cao gấp 2,3 lần trên toàn bộ đội ngũ 600.000 GPU của họ.² Trong khi đó, OpenAI ghi nhận khả năng kiểm soát tắc nghẽn vượt trội của InfiniBand đã giúp việc huấn luyện GPT-4 hoàn thành nhanh hơn 40% so với các nỗ lực ban đầu dựa trên Ethernet.³ Những trải nghiệm trái ngược này tiết lộ một sự thật cơ bản: lựa chọn "đúng đắn" hoàn toàn phụ thuộc vào đặc điểm khối lượng công việc, tham vọng mở rộng quy mô và các ràng buộc kinh tế.
Các quyết định về kiến trúc mạng ảnh hưởng sâu rộng trong nhiều năm đến mọi khía cạnh của hạ tầng AI. Hệ sinh thái độc quyền của InfiniBand ràng buộc các tổ chức vào lộ trình của NVIDIA nhưng mang lại hiệu suất có thể dự đoán được cho huấn luyện phân tán. Các tiêu chuẩn mở của Ethernet cho phép linh hoạt về nhà cung cấp và tối ưu hóa chi phí nhưng đòi hỏi tinh chỉnh tinh vi để đạt được hiệu quả sẵn có của InfiniBand. Lựa chọn này không chỉ ảnh hưởng đến các triển khai hiện tại mà còn đến khả năng mở rộng trong tương lai, vì việc chuyển đổi công nghệ sau này có nghĩa là thay thế hàng triệu đô la switch, cáp và card mạng.
Rủi ro leo thang với mỗi thế hệ phần cứng. NVIDIA Spectrum-X hứa hẹn mang lại hiệu suất tương tự InfiniBand cho Ethernet ở tốc độ 800Gbps, có khả năng làm lỗi thời lợi thế của InfiniBand.⁴ Ultra Ethernet Consortium của Intel thúc đẩy các tiêu chuẩn mở có thể phân mảnh thị trường hơn nữa.⁵ Các tổ chức triển khai hạ tầng ngày nay phải dự đoán công nghệ nào sẽ thống trị vào năm 2030, khi các khoản đầu tư hiện tại khấu hao hoàn toàn. Dự đoán sai sẽ mắc kẹt tài sản và hạn chế khả năng đúng lúc cuộc cạnh tranh AI ngày càng gay gắt.
Kiến trúc kỹ thuật tiết lộ sự khác biệt cơ bản
InfiniBand xuất phát từ các yêu cầu siêu máy tính nơi micro giây quyết định thành công hay thất bại. Kiến trúc giả định truyền không mất mát thông qua kiểm soát luồng dựa trên tín dụng, trong đó người gửi chỉ truyền khi người nhận đảm bảo khả dụng bộ đệm.⁶ Điều này loại bỏ mất gói tin nhưng đòi hỏi sự kết hợp chặt chẽ giữa các điểm cuối. Mọi thiết bị InfiniBand tham gia vào các quyết định định tuyến tập trung của subnet manager, tạo ra các đường dẫn xác định được tối ưu hóa cho các mẫu lưu lượng cụ thể. Cách tiếp cận này mang lại độ trễ nhất quán dưới micro giây nhưng gặp khó khăn với các khối lượng công việc động lệch khỏi các mẫu dự kiến.
Ethernet phát triển từ các mạng cục bộ nơi tính đơn giản và khả năng tương tác quan trọng hơn hiệu suất tuyệt đối. Kiến trúc giả định truyền có mất mát với phân phối nỗ lực tốt nhất, dựa vào các giao thức lớp cao hơn để đảm bảo độ tin cậy. Mất gói tin kích hoạt các thuật toán kiểm soát tắc nghẽn làm giảm tốc độ truyền, ngăn chặn sụp đổ mạng nhưng tăng biến động độ trễ. Các quyết định định tuyến phân tán của Ethernet cho phép quy mô và linh hoạt lớn nhưng tạo ra hiệu suất không thể dự đoán dưới tải. Ethernet trung tâm dữ liệu hiện đại bổ sung các tính năng như Priority Flow Control và Explicit Congestion Notification để tiếp cận hành vi không mất mát của InfiniBand.⁷
Khả năng RDMA (Remote Direct Memory Access) phân biệt cả hai công nghệ với mạng truyền thống. InfiniBand bao gồm RDMA nguyên bản, cho phép truyền bộ nhớ trực tiếp giữa các hệ thống mà không cần sự tham gia của CPU.⁸ RDMA qua InfiniBand đạt độ trễ 0,5 micro giây cho các tin nhắn nhỏ, tốt hơn 10 lần so với mạng dựa trên kernel. Ethernet thêm RDMA thông qua RoCE (RDMA over Converged Ethernet), mang lại hiệu suất tương tự khi được cấu hình đúng cách. Tuy nhiên, RoCE đòi hỏi điều kiện mạng hoàn hảo mà khó duy trì ở quy mô lớn.
Kiến trúc chuyển mạch khác biệt cơ bản giữa các công nghệ. Các switch InfiniBand hoạt động như các fabric crossbar với băng thông không chặn giữa tất cả các cổng.⁹ Một switch InfiniBand HDR 40 cổng cung cấp băng thông tổng hợp 16Tb/s với độ trễ nhất quán bất kể mẫu lưu lượng. Các switch Ethernet sử dụng kiến trúc bộ nhớ dùng chung với ghép kênh thống kê, đạt được mật độ cổng cao hơn nhưng hiệu suất biến đổi khi tắc nghẽn. Sự khác biệt kiến trúc có nghĩa là InfiniBand duy trì hiệu suất có thể dự đoán trong khi Ethernet cung cấp kinh tế tốt hơn.
Các mặt phẳng quản lý phản ánh các cách tiếp cận triết học khác nhau. Subnet Manager của InfiniBand cung cấp kiểm soát tập trung với khả năng hiển thị toàn cầu về cấu trúc liên kết và lưu lượng.¹⁰ Trình quản lý tính toán các tuyến đường tối ưu, xử lý lỗi và duy trì chất lượng dịch vụ mà không cần can thiệp thủ công. Ethernet dựa vào các giao thức phân tán như spanning tree, OSPF hoặc BGP đòi hỏi cấu hình cẩn thận. Mạng được định nghĩa bằng phần mềm mang lại kiểm soát tập trung cho Ethernet nhưng thêm độ phức tạp và các điểm lỗi tiềm ẩn. Sự khác biệt về quản lý ảnh hưởng đáng kể đến chi phí vận hành ở quy mô lớn.
Các chỉ số hiệu suất vượt ra ngoài băng thông thô
Các phép đo độ trễ tiết lộ sự khác biệt tinh tế giữa các công nghệ. InfiniBand HDR đạt độ trễ cổng-đến-cổng 0,6 micro giây nhất quán trên tất cả các kích thước tin nhắn.¹¹ Ethernet ở 100Gbps cho thấy độ trễ cơ sở 1,2 micro giây suy giảm xuống 50+ micro giây khi tắc nghẽn. Sự khác biệt cơ sở 2x trở thành 100x dưới tải. Đối với huấn luyện phân tán nơi đồng bộ hóa gradient xảy ra hàng triệu lần, sự khác biệt micro giây tích lũy thành hàng giờ thời gian huấn luyện bổ sung.
Hiệu quả băng thông kể một câu chuyện khác với các thông số marketing. InfiniBand cung cấp 95% băng thông lý thuyết cho các truyền tải lớn nhờ mã hóa hiệu quả và chi phí giao thức tối thiểu.¹² InfiniBand 200Gbps duy trì thông lượng thực tế 190Gbps. Chi phí của Ethernet thay đổi theo cấu hình: Ethernet tiêu chuẩn đạt hiệu quả 85%, trong khi RoCE v2 đạt 92% với tinh chỉnh phù hợp. Khoảng cách hiệu quả thu hẹp ở tốc độ 800Gbps nơi cả hai công nghệ sử dụng mã hóa PAM4 tương tự.
Hành vi tắc nghẽn phân tách các công nghệ một cách đáng kể. Kiểm soát luồng dựa trên tín dụng của InfiniBand ngăn chặn tắc nghẽn bằng cách dừng truyền trước khi bộ đệm tràn.¹³ Hiệu suất suy giảm dần khi tải tăng. Mất gói tin của Ethernet kích hoạt các thuật toán giảm tốc kiểu TCP tạo ra các mẫu thông lượng răng cưa. Các tình huống incast khi nhiều người gửi làm quá tải một người nhận duy nhất gây ra sụp đổ hiệu suất thảm khốc trên Ethernet được tinh chỉnh kém. InfiniBand xử lý cùng một tình huống với suy giảm tối thiểu.
Kiểm tra khả năng mở rộng phơi bày các giới hạn kiến trúc. Các fabric InfiniBand mở rộng đến 48.000 nút trong một subnet đơn với cấu trúc liên kết fat tree ba tầng.¹⁴ Các triển khai lớn hơn yêu cầu nhiều subnet được kết nối thông qua router, thêm độ phức tạp. Ethernet mở rộng đến hàng triệu nút sử dụng định tuyến phân cấp nhưng đòi hỏi thiết kế cẩn thận để duy trì hiệu suất. Các trung tâm dữ liệu của Facebook kết nối hơn 100.000 máy chủ sử dụng Ethernet với các giao thức tùy chỉnh để kỹ thuật lưu lượng.¹⁵ Các ví dụ cho thấy cả hai công nghệ đều mở rộng, nhưng thông qua các cơ chế khác nhau.
Các chỉ số độ tin cậy ủng hộ InfiniBand nhẹ trong các môi trường được kiểm soát. Truyền không mất mát và di chuyển đường dẫn tự động của InfiniBand đạt 99,999% phân phối gói tin.¹⁶ Ethernet với độ dự phòng phù hợp đạt độ tin cậy 99,995%, chấp nhận được cho hầu hết các khối lượng công việc. Tuy nhiên, sự tích hợp chặt chẽ hơn của InfiniBand có nghĩa là lỗi thành phần đơn lẻ có thể làm mất ổn định toàn bộ fabric. Sự kết hợp lỏng lẻo của Ethernet chứa lỗi tốt hơn, ngăn chặn hiệu ứng dây chuyền. Sự khác biệt về độ tin cậy quan trọng nhất đối với các công việc huấn luyện chạy dài nơi bất kỳ gián đoạn nào đều lãng phí hàng triệu thời gian tính toán.
Phân tích chi phí phá vỡ quan niệm thông thường
Chi phí phần cứng chỉ kể một phần của câu chuyện kinh tế. Các adapter InfiniBand HDR có giá 2.000-3.000 đô la mỗi cổng so với 800-1.500 đô la cho các card Ethernet tương đương.¹⁷ Một switch InfiniBand 40 cổng có giá 50.000 đô la so với 25.000 đô la cho Ethernet. Cáp thêm một khoản phí bảo hiểm khác: cáp DAC InfiniBand có giá 500-800 đô la trong khi các loại tương đương Ethernet chạy 200-400 đô la. Đối với một cụm 1.000 GPU, chi phí phần cứng InfiniBand là 15 triệu đô la so với 7 triệu đô la cho Ethernet, một khoản phí bảo hiểm 8 triệu đô la có vẻ cấm đoán.
Chi phí vận hành thay đổi đáng kể phép tính. Quản lý tự động của InfiniBand giảm chi phí quản trị 60% so với Ethernet.¹⁸ Một kỹ sư mạng có thể quản lý 10.000 cổng InfiniBand so với 4.000 cổng Ethernet đòi hỏi cấu hình thủ công. Tiết kiệm lao động lên tới 500.000 đô la hàng năm cho các triển khai lớn. Hiệu quả cao hơn của InfiniBand cũng giảm tiêu thụ điện năng 15%, tiết kiệm 200.000 đô la hàng năm cho một cơ sở megawatt.
Cấp phép phần mềm tạo ra các chi phí ẩn mà nhiều người bỏ qua. Stack OFED (OpenFabrics Enterprise Distribution) của InfiniBand là mã nguồn mở với các hợp đồng hỗ trợ tùy chọn.¹⁹ Ethernet doanh nghiệp thường yêu cầu giấy phép phần mềm đắt tiền cho các tính năng nâng cao: VMware NSX có giá 5.000 đô la mỗi CPU, Cisco ACI chạy 50.000 đô la mỗi switch.²⁰ Các giấy phép này có thể vượt quá chi phí phần cứng trong chu kỳ triển khai năm năm. Các sáng kiến mạng mở như SONiC giảm chi phí phần mềm Ethernet nhưng đòi hỏi đầu tư kỹ thuật.
Các mô hình Tổng Chi Phí Sở Hữu phụ thuộc nhiều vào các giả định sử dụng. Nếu lợi thế hiệu suất 15% của InfiniBand chuyển thành huấn luyện nhanh hơn 15%, tiết kiệm thời gian biện minh cho giá cao cấp cho các tổ chức nơi tốc độ quyết định lợi thế cạnh tranh. Một tổ chức chi 1 triệu đô la hàng tháng cho tính toán GPU tiết kiệm 150.000 đô la thông qua hoàn thành nhanh hơn. Trong ba năm, tiết kiệm vượt quá phí bảo hiểm của InfiniBand. Tuy nhiên, nếu các khối lượng công việc không được hưởng lợi từ các ưu điểm của InfiniBand, phí bảo hiểm trở thành lãng phí thuần túy.
Chi phí khóa nhà cung cấp khó định lượng nhưng ảnh hưởng đáng kể đến kinh tế dài hạn. InfiniBand khóa các tổ chức vào hệ sinh thái của NVIDIA, hạn chế đòn bẩy đàm phán và lựa chọn công nghệ.²¹ Sự đa dạng nhà cung cấp của Ethernet cho phép đấu thầu cạnh tranh giảm chi phí 20-30%. Tuy nhiên, chuyển đổi giữa các nhà cung cấp Ethernet đòi hỏi tái kỹ thuật tốn hàng triệu đô la. Sự độc lập nhà cung cấp thực sự vẫn là ảo tưởng bất kể lựa chọn công nghệ.
Độ trưởng thành của hệ sinh thái phần mềm khác biệt đáng kể
Độ ổn định driver ảnh hưởng đến độ tin cậy sản xuất nhiều hơn thông số phần cứng. Các driver Mellanox OFED của InfiniBand trải qua thử nghiệm rộng rãi với các GPU NVIDIA, đảm bảo tương thích trên các stack phần mềm.²² Phiên bản 5.8 OFED hỗ trợ mọi phiên bản CUDA liền mạch. Chất lượng driver Ethernet thay đổi theo nhà cung cấp: driver ice của Intel chứng minh vững chắc, trong khi một số nhà cung cấp xuất xưởng driver kernel panic dưới tải. Các vấn đề driver gây ra các lỗi bí ẩn lãng phí hàng tuần thời gian gỡ lỗi.
Tích hợp framework quyết định năng suất của nhà phát triển. PyTorch và TensorFlow tối ưu hóa cho InfiniBand thông qua hỗ trợ UCX gốc, đạt được hiệu suất gần lý thuyết mà không cần tinh chỉnh.²³ NCCL (NVIDIA Collective Communications Library) bao gồm các tối ưu hóa cụ thể cho InfiniBand tăng tốc các hoạt động all-reduce 30%.²⁴ Hỗ trợ Ethernet tồn tại nhưng đòi hỏi cấu hình thủ công các tham số RoCE, thuật toán kiểm soát tắc nghẽn và kích thước bộ đệm. Khoảng cách tích hợp thu hẹp khi các framework thêm tối ưu hóa Ethernet, nhưng InfiniBand duy trì lợi thế dễ sử dụng.
Các công cụ quản lý phản ánh sự khác biệt về độ trưởng thành của hệ sinh thái. UFM (Unified Fabric Manager) của NVIDIA cung cấp giám sát InfiniBand toàn diện, tự động phát hiện