Switch Ethernet cho AI: Các Nền Tảng 51.2Tbps Kết Nối Cụm GPU

Blake Crosley

Jan 14, 2026 12 min read Disclaimer

Switch Ethernet cho AI: Các Nền Tảng 51.2Tbps Kết Nối Cụm GPU

Cập nhật ngày 11 tháng 12, 2025

Cập nhật tháng 12/2025: Ethernet hiện dẫn đầu trong triển khai mạng back-end AI theo Dell'Oro Group. xAI Colossus (100.000 H100) đạt thông lượng 95% với Spectrum-X so với 60% trên Ethernet truyền thống. Broadcom Tomahawk 5 cung cấp 51.2Tbps trong chip đơn khối (64x 800GbE). Ultra Ethernet Consortium công bố đặc tả 560 trang chính thức hóa các tiêu chuẩn tối ưu cho AI. NVIDIA Spectrum-X800 mang lại hiệu suất AI cao hơn 1.6x so với Ethernet truyền thống.

Ethernet hiện dẫn đầu trong triển khai mạng back-end AI. Dell'Oro Group báo cáo rằng lợi thế chi phí hấp dẫn, hệ sinh thái đa nhà cung cấp và sự quen thuộc trong vận hành thúc đẩy việc áp dụng vượt qua InfiniBand vào năm 2025.¹ Sự chuyển dịch này càng tăng tốc khi siêu máy tính Colossus của xAI chứng minh hiệu suất Ethernet ở quy mô lớn, kết nối 100.000 GPU NVIDIA Hopper sử dụng mạng Spectrum-X và đạt thông lượng dữ liệu 95% với kiểm soát tắc nghẽn tiên tiến.² Ethernet truyền thống ở quy mô tương tự gặp phải hàng nghìn xung đột luồng, giới hạn thông lượng xuống khoảng 60%.³

Silicon switch đã tăng gấp đôi băng thông để đáp ứng nhu cầu AI. Tomahawk 5 của Broadcom cung cấp 51.2 terabit mỗi giây trong một chip đơn khối, cung cấp năng lượng cho các switch với 64 cổng 800GbE hoặc 128 cổng 400GbE.⁴ Nền tảng Spectrum-X800 của NVIDIA tương đương về công suất này đồng thời bổ sung các tối ưu hóa đặc thù cho AI thông qua tích hợp phần mềm với BlueField SuperNIC. Đặc tả Ultra Ethernet Consortium tháng 6/2025 chính thức hóa các tiêu chuẩn cho Ethernet tối ưu AI, thiết lập khung 560 trang cho kiểm soát tắc nghẽn, truyền tải RDMA và khả năng tương tác đa nhà cung cấp.⁵

Broadcom Tomahawk 5 thiết lập chuẩn băng thông

Dòng switch StrataXGS Tomahawk 5 cung cấp công suất chuyển mạch Ethernet 51.2 terabit mỗi giây trong một thiết bị đơn khối, tăng gấp đôi băng thông của silicon thế hệ trước.⁶ Chip này thể hiện sự thống trị liên tục của Broadcom trong silicon switch thương mại, duy trì nhịp tăng gấp đôi băng thông được thiết lập với Tomahawk 1 vào năm 2014.

Các quyết định kiến trúc phân biệt Tomahawk 5 với các đối thủ cạnh tranh. Trong khi các thiết kế 51.2Tbps cạnh tranh sử dụng kiến trúc chiplet bọc nhiều chiplet tín hiệu SerDes xung quanh các engine xử lý gói đơn khối, Tomahawk 5 đạt được băng thông đầy đủ trong một mảnh silicon duy nhất sử dụng công nghệ quy trình 5nm.⁷ Kiến trúc bộ đệm chia sẻ cung cấp hiệu suất cao nhất và độ trễ đuôi thấp nhất cho RoCEv2 và các giao thức RDMA khác quan trọng cho khối lượng công việc AI.⁸

Cấu hình cổng hỗ trợ các kịch bản triển khai đa dạng: 64 cổng ở 800Gbps cho triển khai spine yêu cầu băng thông tối đa mỗi cổng, 128 cổng ở 400Gbps cho switch leaf cân bằng, và 256 cổng ở 200Gbps cho môi trường yêu cầu kết nối server mở rộng.⁹ Chip hỗ trợ cả topology Clos truyền thống và kiến trúc phi Clos bao gồm cấu hình torus, Dragonfly, Dragonfly+ và Megafly được tối ưu hóa cho truyền thông cụm AI.¹⁰

Các tính năng nâng cao nhắm trực tiếp vào yêu cầu khối lượng công việc AI/ML. Cognitive Routing cung cấp phân phối lưu lượng thông minh. Cân bằng tải động phân tán luồng trên các đường dẫn có sẵn. Kiểm soát tắc nghẽn đầu-cuối ngăn chặn bão hòa mạng làm giảm hiệu suất sử dụng GPU.¹¹ Broadcom tuyên bố Jericho3-AI cung cấp thời gian hoàn thành công việc ngắn hơn hơn 10% so với các chip cạnh tranh thông qua các tối ưu hóa này.¹²

Hiệu quả năng lượng cải thiện đáng kể. Một Tomahawk 5 duy nhất thay thế bốn mươi tám switch Tomahawk 1 về băng thông tương đương, dẫn đến giảm hơn 95% yêu cầu điện năng.¹³ Đối với các trung tâm dữ liệu AI đã gặp khó khăn với mật độ điện năng mỗi rack, cải tiến hiệu quả mạng kết hợp với tối ưu hóa tính toán và làm mát.

Các sản phẩm switch thương mại từ nhiều nhà cung cấp tận dụng silicon Tomahawk 5. N9600-64OD của FS.com cung cấp 64x cổng 800GbE với độ trễ dưới micro giây.¹⁴ Dòng N9500 của NADDOD cung cấp cả cấu hình 400G và 800G được tối ưu hóa cho triển khai trung tâm dữ liệu AI.¹⁵ Dòng AI Leaf 7060X6 của Arista sử dụng Tomahawk 5 cho công suất 51.2Tbps trong form factor 2RU.¹⁶

NVIDIA Spectrum-X xây dựng Ethernet gốc AI

NVIDIA thiết kế Spectrum-X như nền tảng mạng Ethernet đầu tiên được xây dựng có mục đích cho khối lượng công việc AI. Nền tảng kết hợp switch Spectrum SN5600 với BlueField-3 SuperNIC, tăng tốc hiệu suất AI tạo sinh 1.6x so với triển khai Ethernet truyền thống.¹⁷

Switch Spectrum-X800 SN5600 cung cấp 64 cổng 800GbE sử dụng form factor OSFP và tổng công suất chuyển mạch 51.2Tbps.¹⁸ Kiến trúc Spectrum-4 làm nền tảng cho switch vượt qua khả năng thế hệ trước về cả dung lượng và mật độ cổng. Tích hợp với BlueField SuperNIC cho phép kiểm soát tắc nghẽn phối hợp, định tuyến thích ứng và thu thập telemetry trải rộng toàn bộ fabric mạng.

Các triển khai thực tế xác nhận kiến trúc. Cụm Colossus của xAI sử dụng Ethernet Spectrum-X để huấn luyện họ mô hình ngôn ngữ lớn Grok trên 100.000 GPU.¹⁹ Hệ thống đạt thông lượng dữ liệu 95% thông qua công nghệ kiểm soát tắc nghẽn được tối ưu hóa đặc biệt cho các mẫu truyền thông đồng bộ, có tính bùng phát của huấn luyện AI phân tán.²⁰

Các thông báo sản phẩm năm 2025 mở rộng đáng kể khả năng Spectrum-X. Switch Spectrum-X Photonics được công bố vào tháng 3/2025 hợp nhất mạch điện tử với truyền thông quang học ở quy mô lớn.²¹ Các cấu hình bao gồm 128 cổng 800Gbps (tổng 100Tbps) và 512 cổng 800Gbps (tổng 400Tbps), cho phép các nhà máy AI kết nối hàng triệu GPU đồng thời giảm tiêu thụ năng lượng.²²

Spectrum-XGS Ethernet được công bố vào tháng 8/2025 giới thiệu công nghệ scale-across kết hợp các trung tâm dữ liệu phân tán thành các siêu nhà máy AI quy mô giga thống nhất.²³ Công nghệ này đại diện cho trụ cột thứ ba của điện toán AI ngoài scale-up truyền thống (NVLink) và scale-out (mạng tiêu chuẩn), cho phép các tổ chức tổng hợp cơ sở hạ tầng phân tán thành môi trường huấn luyện nhất quán.

Các nhà cung cấp đám mây lớn tiêu chuẩn hóa trên Spectrum-X. Meta và Oracle công bố vào tháng 10/2025 họ sẽ triển khai switch Ethernet Spectrum-X như một kiến trúc mạng mở, tăng tốc hiệu quả huấn luyện AI.²⁴ Hệ sinh thái đa nhà cung cấp định vị Spectrum-X vừa là giải pháp NVIDIA vừa là nền tảng ngành.

Ultra Ethernet Consortium thiết lập tiêu chuẩn sẵn sàng cho AI

Ultra Ethernet Consortium phát hành Specification 1.0 vào ngày 11 tháng 6, 2025, thiết lập khung toàn diện 560 trang cho mạng AI và HPC.²⁵ Consortium, ra mắt năm 2023 dưới Linux Foundation, đoàn kết hơn 50 công ty công nghệ bao gồm AMD, Intel, Broadcom, Cisco, Arista, Meta, Microsoft, Dell, Samsung và Huawei.²⁶

Các đổi mới kỹ thuật giải quyết các hạn chế cơ bản trong Ethernet truyền thống cho khối lượng công việc AI. Đặc tả định nghĩa các triển khai RDMA nâng cao, giao thức truyền tải và cơ chế kiểm soát tắc nghẽn được thiết kế cho các mẫu truyền thông đồng bộ, có tính bùng phát của huấn luyện phân tán.²⁷

Các phương pháp kiểm soát tắc nghẽn khác biệt cơ bản so với triển khai RoCE truyền thống. Phương pháp UEC không dựa vào mạng không mất gói như yêu cầu truyền thống, giới thiệu chế độ điều khiển bởi máy nhận nơi các endpoint có thể giới hạn việc truyền của người gửi một cách chủ động thay vì thụ động.²⁸ Sự chuyển đổi này cho phép xây dựng các mạng lớn hơn với hiệu quả tốt hơn cho khối lượng công việc AI.

Mục tiêu hiệu suất bao trùm triển khai quy mô cụm. Đặc tả nhắm đến thời gian khứ hồi từ 1 đến 20 micro giây trên các cụm, tối ưu hóa đặc biệt cho môi trường trung tâm dữ liệu chạy huấn luyện AI, suy luận và khối lượng công việc HPC.²⁹

Đảm bảo khả năng tương tác ngăn chặn sự phụ thuộc vào nhà cung cấp. UEC Specification 1.0 cung cấp các giải pháp hiệu suất cao trên NIC, switch, quang học và cáp, cho phép tích hợp đa nhà cung cấp liền mạch.³⁰ Tiêu chuẩn mở cho phép các tổ chức cung cấp linh kiện từ nhiều nhà cung cấp trong khi duy trì tính nhất quán hiệu suất.

Tính sẵn có của sản phẩm theo sau việc phát hành đặc tả. Arista xác nhận hỗ trợ cho các cải tiến chuyển mạch UEC 1.0 trên danh mục sản phẩm Etherlink, bắt đầu với nền tảng 7060X và 7800R.³¹ Phần cứng hỗ trợ full-stack từ nhiều nhà cung cấp giao hàng vào cuối năm 2025 hoặc đầu năm 2026.³²

Arista và Cisco cạnh tranh trong nền tảng AI module

Các nhà cung cấp mạng truyền thống điều chỉnh nền tảng trung tâm dữ liệu cho yêu cầu khối lượng công việc AI, cạnh tranh với phương pháp xây dựng có mục đích của NVIDIA.

Dòng 7800R4 của Arista ra mắt ngày 29 tháng 10, 2025 là thế hệ thứ tư của hệ thống spine module được thiết kế cho triển khai AI.³³ Nền tảng cung cấp thông lượng hệ thống 460Tbps (920Tbps full duplex) trên các cấu hình từ bốn đến mười sáu module line card.³⁴ Số lượng cổng mở rộng đến 576x 800GbE hoặc 1152x 400GbE cho kết nối cụm quy mô lớn.³⁵

7800R4 triển khai bộ xử lý Broadcom Jericho3-AI với pipeline gói được tối ưu hóa cho AI.³⁶ Công nghệ HyperPort kết hợp bốn cổng 800Gbps thành kết nối tổng hợp 3.2Tbps, cho phép thời gian hoàn thành công việc ngắn hơn 44% cho các luồng băng thông AI so với cân bằng tải truyền thống trên các cổng riêng biệt.³⁷ Chassis module và switch form factor cố định 7280R4 giao hàng ngay, với các biến thể 7020R4 và linecard HyperPort đến Q1 2026.³⁸

Cisco Silicon One thống nhất khả năng định tuyến và chuyển mạch với hiệu suất lên đến 51.2Tbps được cung cấp bởi ASIC G200.³⁹ Kiến trúc nhắm đến cả mạng AI scale-out và scale-up với dung lượng cao, độ trễ cực thấp và thời gian hoàn thành công việc giảm.⁴⁰

Router module dòng Cisco 8800 cung cấp nền tảng chassis. Có sẵn trong cấu hình 4, 8, 12 và 18 slot, tất cả các mẫu hỗ trợ line card thế hệ thứ ba 36x 800G (P100) dựa trên Silicon One.⁴¹ Router Cisco 8223 cung cấp công suất 51.2Tbps sử dụng chip lập trình Silicon One P200.⁴²

Quan hệ đối tác Cisco-NVIDIA mở rộng tích hợp chip Silicon One vào stack Ethernet Spectrum-X, kết hợp chuyển mạch độ trễ thấp, định tuyến thích ứng và telemetry cho hỗ trợ cụm GPU.⁴³ Hỗ trợ SONiC (Software for Open Networking in the Cloud) trên switch dòng Cisco 8000 cho phép các tổ chức chọn hệ điều hành mạng mở phù hợp với yêu cầu vận hành.⁴⁴

RoCE làm Ethernet cạnh tranh với InfiniBand

RDMA over Converged Ethernet (RoCE) cho phép mạng Ethernet đạt hiệu suất tương đương InfiniBand cho khối lượng công việc AI khi được cấu hình đúng cách. Meta công bố chi tiết kỹ thuật cho cụm 24.000 GPU của họ, tuyên bố họ đã tinh chỉnh cả RoCE và InfiniBand để cung cấp hiệu suất tương đương, với các mô hình lớn nhất được huấn luyện trên fabric RoCE của họ.⁴⁵

RoCE v2 dựa vào cấu hình mạng Ethernet không mất gói. Priority Flow Control loại bỏ mất gói cho các lớp lưu lượng được chọn. Enhanced Transmission Selection phân bổ băng thông trên các loại lưu lượng. Explicit Congestion Notification báo hiệu tắc nghẽn sớm. Dynamic Congestion Control tối ưu hóa hiệu suất RDMA.⁴⁶ Không có cấu hình đúng cách của các cơ chế này, hiệu suất RoCE giảm đáng kể.

Các nền tảng đám mây lớn xác nhận RoCE cho khối lượng công việc AI sản xuất. Các loại máy A3 Ultra và A4 Compute Engine của Google Cloud tận dụng RoCEv2 cho mạng GPU hiệu suất cao.⁴⁷ Siêu cụm Zettascale10 của Oracle sử dụng fabric mạng Acceleron RoCE với NIC Ethernet chuyên dụng chứa switch bốn cổng tích hợp để giảm thiểu độ trễ.⁴⁸

Kiến trúc cụm AI của Meta chứng minh RoCE ở quy mô lớn. Backend fabric kết nối tất cả RDMA NIC trong topology non-blocking cung cấp băng thông cao, độ trễ thấp và truyền tải không mất gói giữa hai GPU bất kỳ.⁴⁹ Topology Clos hai tầng tổ chức các rack AI thành các zone, với switch huấn luyện rack đóng vai trò switch leaf kết nối GPU qua cáp DAC đồng.⁵⁰

Cân nhắc chi phí ưu tiên Ethernet cho nhiều triển khai. Đối với các công ty tier 2 và tier 3 triển khai cụm 256-1.024 GPU, Ethernet với RoCE là khuyến nghị mặc định trừ khi yêu cầu độ trễ cụ thể, định lượng được biện minh cho chi phí mạng gấp 2x của InfiniBand.⁵¹ Các nghiên cứu điển hình đã công bố của la

[Nội dung bị cắt ngắn cho bản dịch]

Switch Ethernet cho AI: Các Nền Tảng 51.2Tbps Kết Nối Cụm GPU

Broadcom Tomahawk 5 thiết lập chuẩn băng thông

NVIDIA Spectrum-X xây dựng Ethernet gốc AI

Ultra Ethernet Consortium thiết lập tiêu chuẩn sẵn sàng cho AI

Arista và Cisco cạnh tranh trong nền tảng AI module

RoCE làm Ethernet cạnh tranh với InfiniBand

You Might Also Like

Máy Tính ROI Làm Mát Ngâm Chìm: Hoàn Vốn 2-4 Năm Cho Khối Lư...

Hành lang AI Vương quốc Anh: Trung tâm Điện toán Mới Nổi của...

Hiệu quả Sử dụng Nước: Làm mát Trung tâm Dữ liệu AI Không Gâ...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_