Optical Networking สำหรับ AI: 400ZR และ Coherent Optics สำหรับการเชื่อมต่อ GPU
อัพเดตเมื่อ 8 ธันวาคม 2025
อัพเดตธันวาคม 2025: 800G coherent optics (800ZR+) ขณะนี้จัดส่งแล้วจากหลายผู้จำหน่ายรวมถึง Cisco, Ciena และ Infinera การสาธิต Co-packaged optics (CPO) ด้วยความจุสวิตช์ 51.2T Linear-drive pluggable optics ช่วยลดการใช้พลังงาน 40% เมื่อเปรียบเทียบกับโซลูชันแบบ DSP NVIDIA's NVLink-C2C ใช้ silicon photonics สำหรับ optical interconnect แบบ chip-to-chip ในแร็ค GB200 NVL72 ตลาด AI data center optical คาดว่าจะถึง 8.2 พันล้านดอลลาร์ภายในปี 2028 ขับเคลื่อนโดยการเชื่อมต่อ GPU แบบ rack-scale ที่ต้องการ 400G+ ต่อลิงค์
ระบบซูเปอร์คอมพิวเตอร์ TPU v5p ของ Google บรรลุอำนาจการคำนวณ 8.5 exaflops โดยการเชื่อมต่อชิป 8,960 ตัวโดยใช้ optical circuit switches ที่ส่งมอบ bandwidth รวม 4 petabits ต่อวินาทีด้วยเวลาสลับต่ำกว่า 10 nanoseconds ทำให้สามารถปรับโครงสร้าง topology แบบไดนามิกที่ปรับปรุงความเร็วการฝึก 2.7 เท่าเมื่อเปรียบเทียบกับ electronic switching แบบดั้งเดิม¹ Optical interconnect ของ Google ใช้พลังงาน 5 watts ต่อลิงค์ 100Gbps เมื่อเปรียบเทียบกับ 35 watts สำหรับ electronic switches ซึ่งเป็นการประหยัดพลังงาน 7 เท่าที่ช่วยประหยัดต้นทุนไฟฟ้า 24 ล้านดอลลาร์ต่อปีใน AI infrastructure ของพวกเขา สายเคเบิลทองแดงแบบดั้งเดิมมีข้อจำกัดทางกายภาพที่ 3 เมตรสำหรับการเชื่อมต่อ 400Gbps ทำให้ data centers ต้องใช้ optical interconnects ที่รักษาความสมบูรณ์ของสัญญาณระหว่าง 2 กิโลเมตรพร้อมกับขจัดการรบกวนทางแม่เหล็กไฟฟ้าที่ทำให้การคำนวณ gradient เสียหายในระหว่างการฝึกแบบกระจาย องค์กรที่นำ optical networking มาใช้สำหรับ AI รายงานการลด complexity ของสายเคเบิล 50%, ลด latency variance 85% และความสามารถในการปรับโครงสร้างเครือข่ายแบบไดนามิกเพื่อให้เข้ากับสถาปัตยกรรมโมเดลเฉพาะ²
การเติบโตอย่างรวดเร็วของพารามิเตอร์โมเดล AI จาก 175 พันล้านของ GPT-3 ไปยัง 1.7 ล้านล้านที่เป็นข่าวลือของ GPT-4 ต้องการ network bandwidth ที่เพิ่มขึ้นเป็นสองเท่าทุก 6 เดือน เร็วกว่าการปรับปรุงตาม Moore's Law ในด้านการคำนวณ³ เทคโนโลยี Coherent optical ที่ยืมมาจากโทรคมนาคมระยะไกล ขณะนี้ปรากฏภายใน data centers ด้วย transceivers 400ZR ที่ส่งมอบ 400Gbps ผ่าน single-mode fiber ที่ $4 ต่อ gigabit เมื่อเปรียบเทียบกับ $12 สำหรับ optics แบบดั้งเดิม Silicon photonics สัญญาว่าจะรวม optical components โดยตรงเข้ากับ GPUs ขจัด electrical-to-optical conversion ที่ใช้พลังงาน 30% ของงบประมาณ networking องค์กรที่เชี่ยวชาญ optical interconnects สำหรับ AI infrastructure ได้รับข้อได้เปรียบอย่างยั่งยืนผ่าน bandwidth density ที่เหนือกว่า การใช้พลังงานที่ต่ำกว่า และความยืดหยุ่นของเครือข่ายที่เป็นไปไม่ได้กับสถาปัตยกรรมแบบ copper-based
หลักพื้นฐาน Coherent optics สำหรับ data centers
เทคโนโลยี Coherent optical ปฏิวัติ data center networking โดยการเข้ารหัสข้อมูลทั้งใน amplitude และ phase ของคลื่นแสง:
หลักการ Coherent Detection: การตรวจจับโดยตรงแบบดั้งเดิมวัดเฉพาะความเข้มแสง บรรลุ 100Gbps ต่อ wavelength สูงสุด Coherent detection จับข้อมูล amplitude, phase และ polarization ทำให้เป็นไปได้ 800Gbps ต่อ wavelength โดยใช้ 16-QAM modulation⁴ Digital signal processors ชดเชย chromatic dispersion และ polarization mode dispersion แบบ real-time Coherent receivers บรรลุความไว 20dB ดีกว่าการตรวจจับโดยตรง ขยายระยะจาก 10km เป็น 120km โดยไม่ต้องขยายสัญญาณ
การนำไปใช้ 400ZR Standard: ข้อกำหนด OIF 400ZR กำหนด coherent interfaces 400Gbps ที่ทำงานร่วมกันได้สำหรับ data center interconnect⁵ 16-QAM modulation เข้ารหัส 4 bits ต่อ symbol ผ่าน dual polarization Concatenated forward error correction บรรลุอัตราข้อผิดพลาดของ bit 10^-15 รูปแบบ QSFP-DD รักษาความเข้ากันได้แบบย้อนหลังกับโครงสร้างพื้นฐานที่มีอยู่ การใช้พลังงานอยู่ต่ำกว่า 15 watts ทำให้สามารถปรับใช้แบบ high-density ได้
Silicon Photonics Integration: Intel's silicon photonics transceivers รวม lasers, modulators และ detectors ในชิปเดียว⁶ กระบวนการผลิต CMOS ลดต้นทุน 90% เมื่อเปรียบเทียบกับ components แยกส่วน Waveguides ที่แกะสลักในซิลิคอนกำหนดเส้นทางสัญญาณแสงด้วยการสูญเสีย 0.1dB/cm Micro-ring resonators เปิดใช้งาน wavelength-division multiplexing บนชิป การผสมรวมแบบ monolithic ขจัดการเชื่อมต่อแสง 80% ที่ทำให้เกิดปัญหาความเชื่อถือได้
ข้อได้เปรียบ Coherent optics สำหรับ AI workloads: - bandwidth 8 เท่าต่อไฟเบอร์เมื่อเปรียบเทียบกับการตรวจจับโดยตรง - ระยะ 100km โดยไม่ต้องสถานีขยายสัญญาณ - การชดเชยดิจิทัลสำหรับ optical impairments - modulation ที่ยืดหยุ่นปรับตามข้อกำหนดระยะทาง - wavelength tunability ที่เปิดใช้งาน dynamic routing - forward error correction ที่รับประกันความสมบูรณ์ของข้อมูล
รูปแบบสถาปัตยกรรมเครือข่าย
Optical networks สำหรับ AI ติดตามรูปแบบสถาปัตยกรรมที่แตกต่างกันเพื่อปรับให้เหมาะกับ bandwidth และความยืดหยุ่น:
Spine-Leaf Optical Fabric: สถาปัตยกรรม spine-leaf แบบ all-optical ขจัด electronic switching ในเส้นทางข้อมูล Leaf switches เชื่อมต่อกับ GPU servers โดยใช้ transceivers 400ZR ชั้น Spine ใช้ wavelength-selective switches กำหนดเส้นทาง lambdas เฉพาะ ลิงค์ spine-leaf แต่ละลิงค์ใช้ 32 wavelengths ที่ 400Gbps รวม 12.8Tbps Optical amplifiers เพิ่มสัญญาณโดยไม่ต้อง optical-electrical-optical conversion ทราฟิกตะวันออก-ตะวันตกระหว่าง GPUs ข้าม electronic switching โดยสิ้นเชิง
Optical Circuit Switching: เครือข่าย Jupiter ของ Google ใช้ optical circuit switches สำหรับการถ่ายโอนข้อมูลจำนวนมาก⁷ SDN controller ส่วนกลางโปรแกรมเส้นทางแสงตามความต้องการทราฟิก การสร้าง Circuit ใช้เวลา 10 nanoseconds เมื่อเปรียบเทียบกับ 500 nanoseconds สำหรับ packet switching เส้นทางแสงเฉพาะขจัดการเข้าคิวและความแออัด งานฝึกจองความกว้างแบนด์รับประกันประสิทธิภาพที่สม่ำเสมอ การปรับโครงสร้างแบบไดนามิกปรับตามรูปแบบทราฟิกที่เปลี่ยนแปลง
Disaggregated Optical Networks: แยก optical transport ออกจากฟังก์ชัน packet processing Optical transport ให้ wavelengths แบบจุดต่อจุด Packet processing เกิดขึ้นเฉพาะที่ขอบเครือข่าย ขจัด 60% ของอุปกรณ์เครือข่ายออกจากเส้นทางข้อมูล ลด latency จาก 5 microseconds เป็น 200 nanoseconds ทำให้การปฏิบัติการง่ายขึ้นผ่านการปรับขนาดอิสระของ optical และ packet layers
Photonic Clos Networks: Multi-stage optical switching fabrics ที่ได้แรงบันดาลใจจาก Clos networks Silicon photonic switches ให้การเชื่อมต่อแบบ non-blocking Arrayed waveguide gratings กำหนดเส้นทาง wavelengths โดยไม่ใช้พลังงาน ขยายเป็น 100,000 ports ด้วย three-stage architecture การสลับ sub-nanosecond เปิดใช้งาน traffic engineering แบบละเอียด ความทนทานต่อข้อบกพร่องผ่าน optical paths หลายเส้นทาง
แนวปฏิบัติที่ดีในการนำไปใช้
การปรับใช้ optical network ที่ประสบความสำเร็จปฏิบัติตามแนวทางที่ยอมรับ:
การวางแผน Fiber Infrastructure: Single-mode fiber รองรับระยะทางสูงสุด 120km ด้วย coherent optics ข้อกำหนดไฟเบอร์เกรด OS2 รับประกันการสูญเสีย <0.4dB/km รัศมีงอขั้นต่ำ 15mm ป้องกันการสูญเสีย microbending ระบบการเข้ารหัสสีและการติดฉลากป้องกันการเชื่อมต่อผิด การวิเคราะห์ไฟเบอร์โดยใช้ OTDR ระบุ impairments ก่อนการปรับใช้ รักษาความจุไฟเบอร์สำรอง 20% สำหรับการขยายในอนาคต
Optical Power Management: Launch powers ระหว่าง -10dBm และ +5dBm ป้องกันผลกระทบแบบ nonlinear Optical amplifiers รักษาอำนาจที่สม่ำเสมอในสเปกตรัม wavelength Variable optical attenuators ปรับสมดุลอำนาจในเส้นทางคู่ขนาน Power monitors ที่จุดเชื่อมต่อแต่ละจุดเปิดใช้งานการแก้ไขปัญหา การควบคุมอำนาจอัตโนมัติชดเชยการเสื่อมสภาพของ component โปรโตคอลความปลอดภัยป้องกันการบาดเจ็บต่อดวงตาจากแสงอินฟราเรดที่มองไม่เห็น
การวางแผนและการจัดการ Wavelength: ITU-T grid กำหนดช่อง wavelength มาตรฐานหลีกเลี่ยงการรบกวน DWDM systems รองรับ 96 ช่องใน C-band (1530-1565nm) อัลกอริทึมการกำหนด wavelength ป้องกันความขัดแย้ง Guard bands ระหว่างช่องลด crosstalk Wavelength lockers รักษาเสถียรภาพของความถี่ภายใน 2.5GHz Wavelength conversion เปิดใช้งาน flexible routing
การทดสอบและการตรวจสอบ: Bit error rate testers ตรวจสอบประสิทธิภาพลิงค์ก่อนการผลิต Optical spectrum analyzers วัดคุณภาพสัญญาณและ OSNR การทดสอบ Polarization mode dispersion รับประกันเสถียรภาพระยะยาว การวิเคราะห์ Eye diagram ยืนยันความสมบูรณ์ของสัญญาณ การทดสอบ Loopback แยกปัญหาเป็นส่วนเฉพาะ การติดตามอย่างต่อเนื่องตรวจจับการเสื่อมสภาพก่อนความล้มเหลว
Introl ออกแบบและปรับใช้โซลูชัน optical networking สำหรับ AI infrastructure ทั่วพื้นที่ครอบคลุมทั่วโลกของเรา ด้วยความเชี่ยวชาญใน coherent optics และ silicon photonics สำหรับการเชื่อมต่อ GPU⁸ ทีมวิศวกรรม optical ของเราได้นำไปใช้กว่า 200 AI clusters แบบ high-bandwidth โดยใช้เทคโนโลยี photonic ขั้นสูง
ปฏิวัติ Silicon photonics
Silicon photonics นำ optical components เข้าสู่ชิปเดียวกันกับ processors:
Co-packaged Optics: NVLink ของ NVIDIA ใช้สายเคเบิลทองแดงจำกัดระยะที่ 2 เมตร Co-packaged optics วาง transceivers มิลลิเมตรจาก GPU dies ขจัด serializer/deserializer ที่ใช้พลังงาน 10 watts ต่อ 100Gbps ลด latency จาก 100 nanoseconds เป็น 10 nanoseconds เปิดใช้งาน 1.6Tbps ต่อขอบแพ็กเกจ GPU OCP 2.0 ของ Intel สาธิต co-packaged optics ที่ 51.2Tbps⁹
All-Optical Switches: Photonic switches กำหนดเส้นทางสัญญาณแสงโดยไม่ต้องแปลง MEMS mirrors เปลี่ยนเส้นทางลำแสงใน 10 microseconds Silicon photonic switches บรรลุการปรับโครงสร้าง nanosecond การใช้พลังงานเป็นศูนยในสถานะคงที่ ขยายเป็น 1000x1000 ports ในชิปเดียว ขจัด 95% ของอำนาจเมื่อเปรียบเทียบกับ electronic switches
Optical Compute Interconnects: แทนที่ PCIe ด้วย optical links ระหว่าง GPUs และ CPUs CXL over optics ขยายโดเมน memory coherency เป็น rack scale Cache-coherent optical fabrics เปิดใช้งาน 10,000 GPU clusters Optical memory interconnects ให้ bandwidth 10TB/s การเชื่อมต่อแสงโดยตรงกับสแต็กหน่วยความจำ HBM Passage ของ Lightmatter สาธิต bandwidth chip-to-chip 100Tbps¹⁰
Quantum Dot Lasers: Quantum dot lasers ที่รวมบนซิลิคอนให้แหล่งแสง การทำงานที่ไม่ไวต่ออุณหภูมิขจัดข้อกำหนดการทำความเย็น อายุการใช้งาน 100,000 ชั่วโมงเกินความเชื่อถือได้ของ electronic components อาร์เรย์ของ lasers เปิดใช้งาน massive parallelism ประสิทธิภาพพลังงาน 0.1 picojoule ต่อ bit การผลิตจำนวนมากโดยใช้กระบวนการ semiconductor มาตรฐาน
การปรับใช้ optical ในโลกจริง
AI Research SuperCluster ของ Meta: - ขนาด: 16,000 A100 GPUs ด้วยลิงค์แสง 200Gbps - Bandwidth: 13 petabits/วินาที aggregate fabric bandwidth - สถาปัตยกรรม: Three-tier Clos ด้วย optical spine layer - เทคโนโลยี: 400ZR coherent optics สำหรับลิงค์ระหว่างอาคาร - Latency: 1.5 microseconds ทั่วแคมปัส 2,000 ฟุต - ผลลัพธ์: การฝึกโมเดลเร็วขึ้น 3 เท่าเมื่อเปรียบเทียบกับโครงสร้างพื้นฐานก่อนหน้า
Project Sirius ของ Microsoft Azure: - นวัตกรรม: All-optical switching สำหรับ AI workloads - ประสิทธิภาพ: 12.8Tbps ต่อ optical switch - ประสิทธิภาพ: ลดการใช้พลังงาน 85% เมื่อเปรียบเทียบกับ electronic switching - ขนาด: เชื่อมต่อ 100,000 GPUs แบบ optical - การสลับ: การสร้าง optical circuit ต่ำกว่า microsecond - ผลกระทบ: ลดต้นทุนการฝึก 40%
Optical Data Center ของ Alibaba Cloud: - การปรับใช้: 400G coherent optics ทั่วสิ่งอำนวยความสะดวก - ระยะ: การเชื่อมต่อแคมปัส 40km โดยไม่ต้องขยายสัญญาณ - ความหนาแน่น: 38.4Tbps ต่อแร็คโดยใช้ optical switching - พลังงาน: 3 watts ต่อลิงค์แสง 100Gbps - ความยืดหยุ่น: Dynamic wavelength routing ตาม workload - การประหยัด: ลดต้นทุนพลังงานต่อปี 15 ล้านดอลลาร์
Frontier ของ Oak Ridge National Laboratory: - การคำนวณ: 37,000 AMD MI250X GPUs - Interconnect: Slingshot fabric ด้วยลิงค์แสง - Bandwidth: 100GB/s injection bandwidth ต่อ node - Topology: Dragonfly+ ด้วยการเชื่อมต่อกลุ่มแสง - ระยะทาง: ลิงค์แสงครอบคลุมสิ่งอำนวยความสะดวก 300 เมตร - ความสำเร็จ: ระบบ exascale แรกของโลก
การวิเคราะห์ประสิทธิภาพพลังงาน
Optical networking ลดการใช้พลังงาน data center อย่างมาก:
การเปรียบเทียบ Link Power (ต่อ 100Gbps): - Copper DAC (3m): 35 watts - Active optical cable (100m): 12 watts - Silicon photonics (2km): 5 watts - Coherent optics (40km): 3.5 watts - Future photonics: คาดการณ์ <1 watt
การประหยัดระดับระบบ: ชั้น fabric aggregation ของ Facebook ใช้ optical interconnects 90% Power usage effectiveness ปรับปรุงจาก 1.4 เป็น 1.15 ด้วย optical switching พลังงานอุปกรณ์เครือข่ายลดลงจาก 15% เป็น 5%