Mạng 800G cho AI: lập kế hoạch hạ tầng GPU thế hệ tiếp theo
Cập nhật ngày 11 tháng 12 năm 2025
Cập nhật tháng 12/2025: Các nền tảng Quantum-X800 InfiniBand và Spectrum-X800 Ethernet của NVIDIA hiện đã được xuất xưởng với số lượng lớn. Microsoft Azure đang triển khai kiến trúc full fat-tree non-blocking 800G cho các cụm GB200/GB300. Ultra Ethernet Consortium đang đẩy nhanh các cải tiến dành riêng cho AI trong khi các thử nghiệm 1.6T bắt đầu. Mật độ công suất vẫn là rào cản triển khai—các module 800G tiêu thụ 14-20W mỗi cổng gây áp lực lên thiết kế làm mát rack.
Phần lớn các cổng switch được triển khai trong các cụm AI năm 2025 hoạt động ở tốc độ 800 gigabit mỗi giây.¹ Đến năm 2027, phần lớn sẽ chuyển sang 1,6 terabit. Đến năm 2030, hầu hết các cổng sẽ chạy ở 3,2 terabit.² Điều này ngụ ý rằng các lớp điện của mạng trung tâm dữ liệu sẽ cần được thay thế ở mỗi thế hệ băng thông, một chu kỳ nâng cấp gấp rút hơn nhiều so với những gì đã thấy trong lịch sử mạng doanh nghiệp. Các tổ chức lập kế hoạch hạ tầng AI phải tính đến việc chuyển đổi mạng sẽ diễn ra nhanh hơn bất kỳ thế hệ công nghệ nào trước đây.
Doanh thu mạng của NVIDIA gần như tăng gấp đôi so với cùng kỳ năm trước, đạt 7,3 tỷ USD, được thúc đẩy bởi sự áp dụng mạnh mẽ Spectrum-X Ethernet, InfiniBand XDR và các hệ thống scale-up NVLink.³ Spectrum-X vượt qua mức doanh thu thường niên 10 tỷ USD.⁴ Khoản đầu tư này cho thấy mạng cho AI đại diện cho một thị trường riêng biệt so với mạng trung tâm dữ liệu truyền thống, với các yêu cầu và kinh tế học biện minh cho việc phát triển sản phẩm chuyên dụng và lập kế hoạch hạ tầng.
800G trở thành tiêu chuẩn năm 2025
Nghiên cứu ngành và lộ trình của các nhà cung cấp định vị quang học 800G là công nghệ thống trị cho các triển khai cụm AI và trung tâm dữ liệu lớn mới trong năm 2025, đặc biệt ở các form factor OSFP và QSFP-DD.⁵ Các nhà cung cấp và nhà phân tích kỳ vọng transceiver 800G sẽ là trụ cột trong các fabric AI lớn, với các thử nghiệm ban đầu cho 1.6T đang được phát triển.⁶
Sự tăng trưởng nhanh chóng của nền tảng Blackwell Ultra của NVIDIA đã thúc đẩy nhu cầu mạnh mẽ cho các switch InfiniBand 800 Gbps, đẩy mạnh doanh số switch InfiniBand tăng vọt trong Q2 2025.⁷ Trong khi doanh số switch InfiniBand trong các mạng back-end AI tăng mạnh, Ethernet vẫn duy trì vị trí dẫn đầu tổng thể. Các switch 800 Gbps chiếm phần lớn cả về số lượng và doanh thu switch Ethernet và InfiniBand trong các mạng back-end AI.⁸
Các triển khai NVIDIA GB200 và GB300 mới nhất của Microsoft giao tiếp qua NVLink và NVSwitch ở tốc độ terabyte mỗi giây ở cấp rack.⁹ Để kết nối qua nhiều rack thành một pod, Azure sử dụng cả fabric InfiniBand và Ethernet cung cấp 800 Gbps trong kiến trúc full fat-tree non-blocking.¹⁰ Cách tiếp cận hybrid phản ánh vai trò bổ sung của các công nghệ mạng khác nhau trong hạ tầng AI quy mô lớn.
Kết nối quang học phục vụ AI bao gồm các module 400G và 800G sẽ tăng trưởng với tỷ lệ kép hàng năm hơn 22% đến năm 2030, chủ yếu do các cụm huấn luyện và suy luận AI quy mô lớn.¹¹ Quỹ đạo tăng trưởng này biện minh cho các khoản đầu tư hạ tầng dự đoán nhu cầu mở rộng mạng AI trong nhiều năm.
Các nền tảng mạng 800G của NVIDIA
NVIDIA Quantum-X800 InfiniBand và Spectrum-X800 Ethernet đại diện cho các nền tảng mạng đầu tiên trên thế giới có khả năng thông lượng end-to-end 800Gb/s.¹² Nền tảng Quantum-X800, được xây dựng chuyên biệt cho các mô hình AI quy mô nghìn tỷ tham số, bao gồm switch Quantum-X800 InfiniBand, ConnectX-8 SuperNIC, ConnectX-9 SuperNIC, và cáp và transceiver LinkX.¹³
Switch Quantum-X800 InfiniBand cung cấp 144 cổng kết nối 800 Gb/s mỗi cổng.¹⁴ Mật độ cổng cho phép xây dựng các fabric quy mô lớn với ít tầng switching hơn, giảm độ trễ và độ phức tạp. Đối với các tổ chức huấn luyện các mô hình AI lớn nhất, InfiniBand tiếp tục cung cấp độ trễ thấp nhất và hiệu suất nhất quán nhất ở quy mô lớn.
Các switch Quantum-X và Spectrum-X Photonics của NVIDIA tích hợp silicon photonics trực tiếp vào gói switch, cung cấp 128 đến 512 cổng 800 Gb/s với tổng băng thông từ 100 Tb/s đến 400 Tb/s.¹⁵ Sự tích hợp này mang lại hiệu quả năng lượng cao hơn 3,5 lần và khả năng phục hồi tốt hơn 10 lần so với quang học truyền thống.¹⁶
Cisco Nexus Hyperfabric AI với switch Cisco G200 Silicon One được quản lý qua cloud cung cấp Ethernet 800G mật độ cao, hiện có thể đặt hàng như một tùy chọn triển khai trong các AI POD.¹⁷ Sự hợp tác giữa Cisco và NVIDIA về mạng AI cho thấy các nhà cung cấp mạng doanh nghiệp truyền thống đang thích ứng với các yêu cầu hạ tầng AI như thế nào.
Cân nhắc giữa InfiniBand và Ethernet
Ethernet sẽ thống trị hầu hết các triển khai AI doanh nghiệp nhờ lợi thế về chi phí và hệ sinh thái, trong khi InfiniBand sẽ vẫn là lựa chọn cho các cụm AI và HPC quy mô cực lớn.¹⁸ Sự phân biệt này quan trọng cho việc lập kế hoạch hạ tầng: các tổ chức nên chọn công nghệ dựa trên đặc điểm workload thay vì mặc định theo các lựa chọn quen thuộc.
InfiniBand cung cấp độ trễ thấp hơn khoảng 1-2 micro giây và hiệu suất nhất quán hơn ở quy mô lớn.¹⁹ Ethernet với RoCEv2 cung cấp độ trễ khoảng 5-10 micro giây và có thể được điều chỉnh cho các workload AI.²⁰ Sự khác biệt về độ trễ quan trọng cho các công việc huấn luyện nơi các hoạt động collective đồng bộ hóa qua hàng nghìn GPU. Các workload suy luận với yêu cầu đồng bộ hóa thấp hơn có thể không hưởng lợi từ các ưu điểm về độ trễ của InfiniBand.
Các nhà phân tích dự đoán Ethernet sẽ trở thành công nghệ nổi bật hơn cho mạng AI, vượt qua InfiniBand khi 800G tăng trưởng mạnh và 1.6T hình thành.²¹ Việc NVIDIA là thành viên sáng lập Ultra Ethernet Consortium và phát hành các switch Spectrum-X 800G Ethernet được tối ưu cho AI cho thấy sự tự tin vào tương lai Ethernet của AI.²² Ultra Ethernet Consortium phát triển các cải tiến dành riêng cho các workload AI.
Triển khai fabric Ethernet 800G hiệu suất cao, lossless tối đa hóa giá trị của khoản đầu tư AI.²³ Mạng đóng vai trò như hệ thần kinh trung ương, rất quan trọng để tối đa hóa hiệu quả và lợi tức đầu tư. Tinh chỉnh network fabric đẩy nhanh thời gian hoàn thành công việc và đảm bảo sử dụng GPU cao.²⁴
Thách thức và lập kế hoạch di chuyển
Quang học 800G đưa ra các thách thức mới mà các tổ chức phải giải quyết trong quá trình lập kế hoạch di chuyển. Mật độ công suất và nhiệt tăng đáng kể, với các module 800G tiêu thụ 14-20 watt hoặc hơn, gây áp lực lên thiết kế làm mát switch và ngân sách điện năng rack.²⁵ Các tổ chức phải xác minh rằng hạ tầng hiện có có thể hỗ trợ các yêu cầu tăng cao về điện năng và làm mát.
Quản lý cáp quang trở nên phức tạp hơn. Di chuyển sang 800G thường yêu cầu số lượng sợi quang cao hơn, cáp MTP, và các yêu cầu nghiêm ngặt hơn về phân cực và độ sạch.²⁶ Hạ tầng lớp vật lý hoạt động tốt cho 100G hoặc 400G có thể không hỗ trợ 800G nếu không nâng cấp. Các khoản đầu tư vào hệ thống cáp nên dự đoán các yêu cầu băng thông tương lai để tránh việc thay thế hạ tầng lặp đi lặp lại.
Khả năng tương thích và xác nhận qua các nhà cung cấp switch và NIC đòi hỏi lập kế hoạch cẩn thận.²⁷ Các môi trường đa nhà cung cấp có thể gặp các vấn đề tương thích mà các triển khai đồng nhất tránh được. Các tổ chức nên xác nhận khả năng tương thích trong môi trường lab trước khi triển khai production.
Chu kỳ nâng cấp gấp rút từ 800G lên 1.6T lên 3.2T trong chưa đầy năm năm khác biệt với các chuyển đổi mạng lịch sử. Lập kế hoạch nên tính đến việc thay thế hạ tầng thường xuyên hơn so với mạng trung tâm dữ liệu truyền thống đã trải qua. Các thiết kế modular cho phép nâng cấp cấp thành phần có thể giảm tổng chi phí thay thế.
Khuyến nghị chiến lược
Các tổ chức lập kế hoạch hạ tầng AI nên đánh giá các yêu cầu mạng với cùng mức độ nghiêm ngặt áp dụng cho việc lựa chọn GPU. Mạng quyết định mức độ hiệu quả sử dụng các tài nguyên GPU đắt tiền. Đầu tư không đủ vào mạng tạo ra các nút cổ chai lãng phí công suất GPU.
Đối với các triển khai AI mới trong năm 2025, 800G nên là thông số mặc định cho kết nối cấp spine. Kết nối cấp leaf có thể sử dụng 400G tùy thuộc vào cấu hình GPU và mức oversubscription chấp nhận được. Khoản đầu tư vào hạ tầng 800G cung cấp dư địa cho tăng trưởng workload và chuẩn bị cho các chuyển đổi tương lai.
InfiniBand vẫn phù hợp cho các cụm huấn luyện AI lớn nhất nơi việc giảm thiểu độ trễ trực tiếp cải thiện hiệu quả huấn luyện. Các triển khai AI doanh nghiệp, dịch vụ AI trên cloud, và các workload suy luận thường hưởng lợi từ các lợi thế về chi phí của Ethernet và tích hợp hệ sinh thái mà không hy sinh hiệu suất đáng kể.
Các ràng buộc về điện năng và làm mát có thể hạn chế việc áp dụng 800G nhiều hơn các yêu cầu băng thông. Các tổ chức nên kiểm toán công suất hạ tầng trước khi cam kết triển khai 800G. Ngân sách điện năng cho mạng có thể cạnh tranh với các yêu cầu điện năng GPU trong các cơ sở bị hạn chế.
Khung quyết định nhanh
Lựa chọn công nghệ:
| Nếu workload của bạn là... | Chọn | Lý do |
|---|---|---|
| Huấn luyện LLM (>1000 GPU) | InfiniBand 800G | Độ trễ 1-2µs, nhất quán nhất |
| AI doanh nghiệp/suy luận | Ethernet 800G | Chi phí hiệu quả, tích hợp hệ sinh thái |
| Huấn luyện + suy luận hybrid | Dual fabric | InfiniBand cho huấn luyện, Ethernet cho suy luận |
| AI triển khai trên cloud | Phụ thuộc nhà cung cấp | GCP chỉ Ethernet; AWS/Azure cung cấp cả hai |
Lập kế hoạch băng thông:
| Quy mô cụm | Spine | Leaf | Oversubscription |
|---|---|---|---|
| <256 GPU | 400G | 100G | 4:1 chấp nhận được |
| 256-1024 GPU | 800G | 400G | 2:1 khuyến nghị |
| 1024-4096 GPU | 800G | 800G | 1:1 (non-blocking) |
| >4096 GPU | Multi-tier 800G | 800G | Thiết kế fat-tree |
Những điểm chính
Cho kiến trúc sư mạng: - 800G là tiêu chuẩn 2025; lập kế hoạch cho 1.6T vào 2027, 3.2T vào 2030 - NVIDIA Quantum-X800 cung cấp 144 cổng × 800Gb/s mỗi switch - InfiniBand: ~1-2µs độ trễ; Ethernet với RoCEv2: ~5-10µs - Tiêu thụ điện năng: module 800G tiêu thụ 14-20W, ảnh hưởng ngân sách rack
Cho người lập kế hoạch hạ tầng: - Các lớp điện mạng cần thay thế ở mỗi thế hệ băng thông - Quang học 800G cần số lượng sợi quang cao hơn, cáp MTP, độ sạch nghiêm ngặt hơn - Xác nhận khả năng tương thích rất quan trọng trong môi trường đa nhà cung cấp - Thiết kế modular giảm tổng chi phí thay thế trong các chuyển đổi
Cho lập kế hoạch chiến lược: - Ethernet được dự đoán sẽ vượt InfiniBand cho mạng AI khi 800G tăng trưởng - NVIDIA Spectrum-X đạt doanh thu thường niên 10 tỷ USD—mạng AI là một thị trường riêng biệt - Ultra Ethernet Consortium đang phát triển các cải tiến dành riêng cho AI - Đầu tư mạng quyết định việc sử dụng GPU—đầu tư không đủ lãng phí tài nguyên tính toán
Mạng đại diện cho một thành phần đáng kể nhưng thường bị đánh giá thấp trong chi phí hạ tầng AI. Khoản đầu tư cần thiết để hỗ trợ các cụm GPU với băng thông phù hợp biện minh cho việc lập kế hoạch cẩn thận và đánh giá nhà cung cấp. Các tổ chức coi mạng như một ý nghĩ thêm vào sẽ thấy rằng các hạn chế mạng ràng buộc các khả năng AI mà các khoản đầu tư GPU của họ có thể mang lại.
Tài liệu tham khảo
-
Dell'Oro Group. "Beyond the GPU Arms Race — The Potential Role of OXC in Building Next Gen AI Infrastructure." 2025. https://www.delloro.com/beyond-the-gpu-arms-race-the-potential-role-of-oxc-in-building-next-gen-ai-infrastructure/
-
Dell'Oro Group. "Beyond the GPU Arms Race."
-
NVIDIA Newsroom. "NVIDIA Announces New Switches Optimized for Trillion-Parameter GPU Computing and AI Infrastructure." 2025. https://nvidianews.nvidia.com/news/networking-switches-gpu-computing-ai
-
NVIDIA Newsroom. "NVIDIA Announces New Switches."
-
QSFP DD 800G. "2025 800G Optical Module Trends for AI Data Centers." 2025. https://qsfpdd800g.com/blogs/artical/2025-800g-optical-module-trends-ai-data-centers
-
QSFP DD 800G. "2025 800G Optical Module Trends."
-
Lightwave Online. "Ethernet maintains a lead over InfiniBand in the AI race." 2025. https://www.lightwaveonline.com/home/article/55315256/ethernet-maintains-a-lead-over-infiniband-in-the-ai-race
-
Lightwave Online. "Ethernet maintains a lead over InfiniBand."
-
Microsoft Blog. "Inside the world's most powerful AI datacenter." September 18, 2025. https://blogs.microsoft.com/blog/2025/09/18/inside-the-worlds-most-powerf
[Nội dung bị cắt ngắn để dịch]