Mạng quang cho AI: 400ZR và quang học kết hợp cho kết nối GPU

Triển khai quang học kết hợp 400ZR và silicon photonics cho các cluster GPU. Đạt được băng thông 4Pb/s với mức tiêu thụ điện năng thấp hơn 85%. Hướng dẫn kiến trúc quang hoàn chỉnh.

Madison Kersh

Apr 25, 2026 12 min read Disclaimer

Mạng quang cho AI: 400ZR và quang học kết hợp cho kết nối GPU

Cập nhật ngày 8 tháng 12, 2025

Cập nhật tháng 12/2025: Quang học kết hợp 800G (800ZR+) hiện đã được vận chuyển từ nhiều nhà cung cấp bao gồm Cisco, Ciena, và Infinera. Các cuộc trình diễn co-packaged optics (CPO) với dung lượng switch 51.2T. Quang học cắm linear-drive giảm điện năng tiêu thụ 40% so với các giải pháp dựa trên DSP. NVLink-C2C của NVIDIA sử dụng silicon photonics cho kết nối quang chip-to-chip trong các rack GB200 NVL72. Thị trường quang trung tâm dữ liệu AI được dự báo sẽ đạt 8.2 tỷ USD vào năm 2028, được thúc đẩy bởi các kết nối GPU quy mô rack yêu cầu 400G+ mỗi liên kết.

Siêu máy tính TPU v5p của Google đạt được 8.5 exaflops sức mạnh tính toán bằng cách kết nối 8,960 chip sử dụng các switch mạch quang cung cấp 4 petabits mỗi giây băng thông tổng hợp với thời gian chuyển mạch dưới 10 nanosecond, cho phép tái cấu hình topology động cải thiện tốc độ huấn luyện 2.7 lần so với chuyển mạch điện tử truyền thống.¹ Kết nối quang của công ty tìm kiếm này tiêu thụ 5 watts mỗi liên kết 100Gbps so với 35 watts cho các switch điện tử—mức tiết kiệm hiệu suất năng lượng 7 lần giúp tiết kiệm 24 triệu USD hàng năm về chi phí điện trên hạ tầng AI của họ. Các cáp đồng truyền thống gặp giới hạn vật lý ở 3 mét cho kết nối 400Gbps, buộc các trung tâm dữ liệu phải áp dụng kết nối quang duy trì tính toàn vẹn tín hiệu trên 2 kilomet trong khi loại bỏ nhiễu điện từ làm hỏng tính toán gradient trong quá trình huấn luyện phân tán. Các tổ chức triển khai mạng quang cho AI báo cáo giảm 50% độ phức tạp cáp, giảm 85% độ biến thiên độ trễ, và khả năng tái cấu hình động topology mạng để phù hợp với các kiến trúc mô hình cụ thể.²

Sự tăng trưởng bùng nổ của các tham số mô hình AI—từ 175 tỷ của GPT-3 đến 1.7 nghìn tỷ được đồn đoán của GPT-4—đòi hỏi băng thông mạng tăng gấp đôi mỗi 6 tháng, vượt xa các cải tiến theo định luật Moore trong tính toán.³ Công nghệ quang kết hợp, được mượn từ viễn thông tầm xa, hiện xuất hiện bên trong các trung tâm dữ liệu với các transceiver 400ZR cung cấp 400Gbps qua sợi single-mode với giá 4 USD mỗi gigabit so với 12 USD cho quang học truyền thống. Silicon photonics hứa hẹn tích hợp các thành phần quang trực tiếp lên GPU, loại bỏ chuyển đổi điện-quang hiện tiêu thụ 30% ngân sách điện năng mạng. Các tổ chức thành thạo kết nối quang cho hạ tầng AI có được lợi thế bền vững thông qua mật độ băng thông vượt trội, tiêu thụ điện năng thấp hơn, và tính linh hoạt mạng không thể thực hiện được với các kiến trúc dựa trên đồng.

Nguyên lý cơ bản quang học kết hợp cho trung tâm dữ liệu

Công nghệ quang kết hợp cách mạng hóa mạng trung tâm dữ liệu bằng cách mã hóa thông tin trong cả biên độ và pha của sóng ánh sáng:

Nguyên lý phát hiện kết hợp: Phát hiện trực tiếp truyền thống chỉ đo cường độ ánh sáng, đạt được tối đa 100Gbps mỗi bước sóng. Phát hiện kết hợp nắm bắt thông tin biên độ, pha, và phân cực, cho phép 800Gbps mỗi bước sóng sử dụng điều chế 16-QAM.⁴ Các bộ xử lý tín hiệu số bù cho tán sắc màu và tán sắc chế độ phân cực theo thời gian thực. Các bộ thu kết hợp đạt được độ nhạy tốt hơn 20dB so với phát hiện trực tiếp, mở rộng tầm xa từ 10km đến 120km mà không cần khuếch đại.

Triển khai tiêu chuẩn 400ZR: Đặc tả OIF 400ZR định nghĩa các giao diện kết hợp 400Gbps có thể tương tác được tối ưu hóa cho kết nối trung tâm dữ liệu.⁵ Điều chế 16-QAM mã hóa 4 bit mỗi ký hiệu trên phân cực kép. Sửa lỗi chuyển tiếp nối tiếp đạt tỷ lệ lỗi bit 10^-15. Form factor QSFP-DD duy trì khả năng tương thích ngược với hạ tầng hiện có. Tiêu thụ điện năng duy trì dưới 15 watts cho phép triển khai mật độ cao.

Tích hợp Silicon Photonics: Các transceiver silicon photonics của Intel tích hợp laser, bộ điều chế, và detector trên chip đơn.⁶ Quy trình sản xuất CMOS giảm chi phí 90% so với các thành phần rời rạc. Waveguide được khắc trong silicon định tuyến tín hiệu quang với mất mát 0.1dB/cm. Các bộ cộng hưởng micro-ring cho phép ghép kênh phân chia bước sóng trên chip. Tích hợp đơn khối loại bỏ 80% kết nối quang gây ra vấn đề độ tin cậy.

Lợi ích của quang học kết hợp cho workload AI: - Băng thông 8x mỗi sợi so với phát hiện trực tiếp - Tầm xa 100km mà không cần trạm khuếch đại - Bù kỹ thuật số cho các khiếm khuyết quang - Điều chế linh hoạt thích ứng với yêu cầu khoảng cách - Khả năng điều chỉnh bước sóng cho phép định tuyến động - Sửa lỗi chuyển tiếp đảm bảo tính toàn vẹn dữ liệu

Các mẫu kiến trúc mạng

Các mạng quang cho AI tuân theo các mẫu kiến trúc riêng biệt tối ưu hóa băng thông và tính linh hoạt:

Fabric quang Spine-Leaf: Kiến trúc spine-leaf toàn quang loại bỏ chuyển mạch điện tử trong đường dẫn dữ liệu. Các switch leaf kết nối đến server GPU sử dụng transceiver 400ZR. Lớp spine sử dụng switch chọn lọc bước sóng định tuyến các lambda cụ thể. Mỗi liên kết spine-leaf mang 32 bước sóng ở 400Gbps tổng cộng 12.8Tbps. Các bộ khuếch đại quang tăng cường tín hiệu mà không cần chuyển đổi quang-điện-quang. Lưu lượng đông-tây giữa các GPU bỏ qua hoàn toàn chuyển mạch điện tử.

Chuyển mạch mạch quang: Mạng Jupiter của Google sử dụng switch mạch quang cho truyền dữ liệu lớn.⁷ Bộ điều khiển SDN tập trung lập trình các đường quang dựa trên nhu cầu lưu lượng. Thiết lập mạch mất 10 nanosecond so với 500 nanosecond cho chuyển mạch gói tin. Các đường quang chuyên dụng loại bỏ xếp hàng và tắc nghẽn. Các công việc huấn luyện đặt trước băng thông đảm bảo hiệu suất nhất quán. Tái cấu hình động thích ứng với các mẫu lưu lượng thay đổi.

Mạng quang phân tán: Tách vận chuyển quang khỏi các chức năng xử lý gói tin. Vận chuyển quang cung cấp bước sóng point-to-point. Xử lý gói tin chỉ xảy ra tại các cạnh mạng. Loại bỏ 60% thiết bị mạng khỏi đường dẫn dữ liệu. Giảm độ trễ từ 5 microsecond xuống 200 nanosecond. Đơn giản hóa vận hành thông qua mở rộng độc lập của các lớp quang và gói tin.

Mạng Photonic Clos: Fabric chuyển mạch quang đa tầng được lấy cảm hứng từ mạng Clos. Các switch photonic silicon cung cấp kết nối không chặn. Các grating waveguide mảng định tuyến bước sóng mà không tiêu thụ điện năng. Mở rộng đến 100,000 cổng với kiến trúc ba tầng. Chuyển mạch dưới nanosecond cho phép kỹ thuật lưu lượng tinh vi. Khả năng chịu lỗi thông qua nhiều đường quang.

Thực tiễn triển khai tốt nhất

Các triển khai mạng quang thành công tuân theo các thực tiễn đã được thiết lập:

Lập kế hoạch hạ tầng sợi: Sợi single-mode hỗ trợ khoảng cách lên đến 120km với quang học kết hợp. Thông số kỹ thuật sợi cấp OS2 đảm bảo suy hao <0.4dB/km. Bán kính uốn tối thiểu 15mm ngăn chặn mất mát microbending. Hệ thống mã màu và nhãn hiệu ngăn chặn kết nối sai. Đặc tính hóa sợi sử dụng OTDR xác định khiếm khuyết trước khi triển khai. Duy trì 20% dung lượng sợi dự phòng cho mở rộng tương lai.

Quản lý công suất quang: Công suất phát ra giữa -10dBm và +5dBm ngăn chặn các hiệu ứng phi tuyến. Các bộ khuếch đại quang duy trì công suất nhất quán trên phổ bước sóng. Các bộ suy hao quang biến đổi cân bằng công suất trên các đường song song. Monitor công suất tại mỗi điểm kết nối cho phép khắc phục sự cố. Điều khiển công suất tự động bù cho sự lão hóa thành phần. Các giao thức an toàn ngăn chặn tổn thương mắt từ ánh sáng hồng ngoại không nhìn thấy.

Lập kế hoạch và quản lý bước sóng: Lưới ITU-T định nghĩa các kênh bước sóng tiêu chuẩn tránh nhiễu. Hệ thống DWDM hỗ trợ 96 kênh trong C-band (1530-1565nm). Các thuật toán gán bước sóng ngăn chặn tranh chấp. Các dải bảo vệ giữa các kênh giảm crosstalk. Các bộ khóa bước sóng duy trì ổn định tần số trong 2.5GHz. Chuyển đổi bước sóng cho phép định tuyến linh hoạt.

Kiểm tra và xác thực: Các bộ kiểm tra tỷ lệ lỗi bit xác minh hiệu suất liên kết trước sản xuất. Các bộ phân tích phổ quang đo chất lượng tín hiệu và OSNR. Kiểm tra tán sắc chế độ phân cực đảm bảo ổn định dài hạn. Phân tích biểu đồ mắt xác nhận tính toàn vẹn tín hiệu. Kiểm tra loopback cô lập vấn đề đến các phân đoạn cụ thể. Giám sát liên tục phát hiện suy giảm trước khi xảy ra lỗi.

Introl thiết kế và triển khai các giải pháp mạng quang cho hạ tầng AI trên khu vực phủ sóng toàn cầu của chúng tôi, với chuyên môn trong quang học kết hợp và silicon photonics cho kết nối GPU.⁸ Các đội ngũ kỹ thuật quang của chúng tôi đã triển khai hơn 200 cluster AI băng thông cao sử dụng công nghệ photonic tiên tiến.

Cuộc cách mạng Silicon photonics

Silicon photonics đưa các thành phần quang lên cùng chip với bộ xử lý:

Co-packaged Optics: NVLink của NVIDIA sử dụng cáp đồng giới hạn tầm xa đến 2 mét. Co-packaged optics đặt transceiver cách vài milimét từ die GPU. Loại bỏ serializer/deserializer tiêu thụ 10 watts mỗi 100Gbps. Giảm độ trễ từ 100 nanosecond xuống 10 nanosecond. Cho phép 1.6Tbps mỗi cạnh package GPU. OCP 2.0 của Intel trình diễn co-packaged optics ở 51.2Tbps.⁹

All-Optical Switches: Các switch photonic định tuyến tín hiệu quang mà không cần chuyển đổi. Gương MEMS chuyển hướng chùm ánh sáng trong 10 microsecond. Các switch photonic silicon đạt được tái cấu hình nanosecond. Tiêu thụ công suất bằng không ở trạng thái ổn định. Mở rộng đến 1000x1000 cổng trong chip đơn. Loại bỏ 95% điện năng so với switch điện tử.

Optical Compute Interconnects: Thay thế PCIe bằng liên kết quang giữa GPU và CPU. CXL qua quang học mở rộng miền coherency bộ nhớ đến quy mô rack. Fabric quang cache-coherent cho phép cluster 10,000 GPU. Kết nối bộ nhớ quang cung cấp băng thông 10TB/s. Gắn quang trực tiếp đến stack bộ nhớ HBM. Passage của Lightmatter trình diễn băng thông chip-to-chip 100Tbps.¹⁰

Quantum Dot Lasers: Laser quantum dot tích hợp trên silicon cung cấp nguồn sáng. Hoạt động không nhạy cảm nhiệt độ loại bỏ yêu cầu làm mát. Tuổi thọ 100,000 giờ vượt độ tin cậy thành phần điện tử. Mảng laser cho phép song song hóa lớn. Hiệu suất năng lượng 0.1 picojoule mỗi bit. Sản xuất hàng loạt sử dụng quy trình bán dẫn tiêu chuẩn.

Các triển khai quang thực tế

AI Research SuperCluster của Meta: - Quy mô: 16,000 GPU A100 với liên kết quang 200Gbps - Băng thông: 13 petabits/giây băng thông fabric tổng hợp - Kiến trúc: Clos ba tầng với lớp spine quang - Công nghệ: Quang học kết hợp 400ZR cho liên kết liên tòa nhà - Độ trễ: 1.5 microsecond trên campus 2,000 feet - Kết quả: Huấn luyện mô hình nhanh hơn 3x so với hạ tầng trước đó

Project Sirius của Microsoft Azure: - Đổi mới: Chuyển mạch toàn quang cho workload AI - Hiệu suất: 12.8Tbps mỗi switch quang - Hiệu quả: Giảm 85% điện năng so với chuyển mạch điện tử - Quy mô: Kết nối 100,000 GPU bằng quang - Chuyển mạch: Thiết lập mạch quang dưới microsecond - Tác động: Giảm 40% chi phí huấn luyện

Trung tâm dữ liệu quang của Alibaba Cloud: - Triển khai: Quang học kết hợp 400G trong toàn bộ cơ sở - Tầm xa: Kết nối campus 40km mà không cần khuếch đại - Mật độ: 38.4Tbps mỗi rack sử dụng chuyển mạch quang - Điện năng: 3 watts mỗi liên kết quang 100Gbps - Tính linh hoạt: Định tuyến bước sóng động dựa trên workload - Tiết kiệm: Giảm 15 triệu USD chi phí điện hàng năm

Frontier của Oak Ridge National Laboratory: - Tính toán: 37,000 GPU AMD MI250X - Kết nối: Fabric Slingshot với liên kết quang - Băng thông: 100GB/s băng thông injection mỗi node - Topology: Dragonfly+ với kết nối nhóm quang - Khoảng cách: Liên kết quang trải dài cơ sở 300 mét - Thành tựu: Hệ thống exascale đầu tiên trên thế giới

Phân tích hiệu quả điện năng

Mạng quang giảm đáng kể tiêu thụ điện trung tâm dữ liệu:

So sánh điện năng liên kết (mỗi 100Gbps): - Copper DAC (3m): 35 watts - Cáp quang hoạt động (100m): 12 watts - Silicon photonics (2km): 5 watts - Quang học kết hợp (40km): 3.5 watts - Photonics tương lai: <1 watt dự kiến

Tiết kiệm cấp hệ thống: Lớp tổng hợp fabric của Facebook sử dụng 90% kết nối quang. Hiệu suất sử dụng điện năng cải thiện từ 1.4 xuống 1.15 với chuyển mạch quang. Điện năng thiết bị mạng giảm từ 15% xuống 5%

Mạng quang cho AI: 400ZR và quang học kết hợp cho kết nối GPU

Nguyên lý cơ bản quang học kết hợp cho trung tâm dữ liệu

Các mẫu kiến trúc mạng

Thực tiễn triển khai tốt nhất

Cuộc cách mạng Silicon photonics

Các triển khai quang thực tế

Phân tích hiệu quả điện năng

You Might Also Like

Lập Lịch Khối Lượng Công Việc AI: Tối Ưu Hóa Sử Dụng GPU Trê...

Vận hành Bảo mật Hạ tầng AI: Yêu cầu SOC cho Cụm GPU

Kế Hoạch Xây Dựng Hạ Tầng AI 600 Tỷ USD: CapEx của Hyperscal...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_