เครือข่ายออปติคัลสำหรับ AI: 400ZR และ Coherent Optics สำหรับการเชื่อมต่อ GPU
อัปเดต 8 ธันวาคม 2025
อัปเดตธันวาคม 2025: Coherent optics 800G (800ZR+) เริ่มจัดส่งจากผู้ผลิตหลายรายรวมถึง Cisco, Ciena และ Infinera แล้ว การสาธิต Co-packaged optics (CPO) ที่ความจุสวิตช์ 51.2T Linear-drive pluggable optics ลดพลังงาน 40% เมื่อเทียบกับโซลูชันแบบ DSP NVLink-C2C ของ NVIDIA ใช้ silicon photonics สำหรับการเชื่อมต่อออปติคัลระหว่างชิปในแร็ค GB200 NVL72 ตลาดออปติคัลสำหรับ AI data center คาดว่าจะมีมูลค่า 8.2 พันล้านดอลลาร์ภายในปี 2028 ซึ่งขับเคลื่อนโดยการเชื่อมต่อ GPU ระดับแร็คที่ต้องการ 400G+ ต่อลิงก์
ซูเปอร์คอมพิวเตอร์ TPU v5p ของ Google บรรลุพลังประมวลผล 8.5 exaflops โดยเชื่อมต่อ 8,960 ชิปโดยใช้สวิตช์วงจรออปติคัลที่ส่งแบนด์วิดท์รวม 4 petabits ต่อวินาทีพร้อมเวลาสลับต่ำกว่า 10 นาโนวินาที ทำให้สามารถปรับเปลี่ยนโทโพโลยีแบบไดนามิกที่ปรับปรุงความเร็วการฝึกได้ 2.7 เท่าเมื่อเทียบกับการสลับอิเล็กทรอนิกส์แบบดั้งเดิม¹ การเชื่อมต่อออปติคัลของยักษ์ใหญ่ด้านการค้นหาใช้พลังงาน 5 วัตต์ต่อลิงก์ 100Gbps เทียบกับ 35 วัตต์สำหรับสวิตช์อิเล็กทรอนิกส์—ประสิทธิภาพพลังงานดีกว่า 7 เท่าซึ่งประหยัดค่าไฟฟ้าได้ 24 ล้านดอลลาร์ต่อปีทั่วโครงสร้างพื้นฐาน AI ของพวกเขา สายทองแดงแบบดั้งเดิมถึงขีดจำกัดทางกายภาพที่ 3 เมตรสำหรับการเชื่อมต่อ 400Gbps บังคับให้ data center ต้องนำการเชื่อมต่อออปติคัลมาใช้ซึ่งรักษาความสมบูรณ์ของสัญญาณได้ในระยะ 2 กิโลเมตรในขณะที่กำจัดการรบกวนแม่เหล็กไฟฟ้าที่ทำให้การคำนวณ gradient เสียหายระหว่างการฝึกแบบกระจาย องค์กรที่ใช้เครือข่ายออปติคัลสำหรับ AI รายงานว่าลดความซับซ้อนของสายเคเบิล 50% ลดความแปรปรวนของ latency 85% และสามารถปรับเปลี่ยนโทโพโลยีเครือข่ายแบบไดนามิกเพื่อให้ตรงกับสถาปัตยกรรมโมเดลเฉพาะได้²
การเติบโตอย่างรวดเร็วของพารามิเตอร์โมเดล AI—จาก 175 พันล้านของ GPT-3 เป็น 1.7 ล้านล้านที่มีข่าวลือของ GPT-4—ต้องการแบนด์วิดท์เครือข่ายที่เพิ่มเป็นสองเท่าทุก 6 เดือน ซึ่งเร็วกว่าการปรับปรุงตามกฎของ Moore ในด้านการประมวลผลอย่างมาก³ เทคโนโลยี Coherent optical ที่ยืมมาจากโทรคมนาคมระยะไกล ตอนนี้ปรากฏในศูนย์ข้อมูลด้วยทรานซีฟเวอร์ 400ZR ที่ส่งข้อมูล 400Gbps ผ่านไฟเบอร์โหมดเดียวที่ราคา 4 ดอลลาร์ต่อกิกะบิตเทียบกับ 12 ดอลลาร์สำหรับออปติกส์แบบดั้งเดิม Silicon photonics มีแนวโน้มที่จะผสานรวมส่วนประกอบออปติคัลโดยตรงบน GPU ขจัดการแปลงไฟฟ้าเป็นออปติคัลที่ปัจจุบันใช้งบประมาณพลังงานเครือข่าย 30% องค์กรที่เชี่ยวชาญการเชื่อมต่อออปติคัลสำหรับโครงสร้างพื้นฐาน AI จะได้รับข้อได้เปรียบอย่างยั่งยืนผ่านความหนาแน่นแบนด์วิดท์ที่เหนือกว่า การใช้พลังงานที่ต่ำกว่า และความยืดหยุ่นของเครือข่ายที่เป็นไปไม่ได้กับสถาปัตยกรรมที่ใช้ทองแดง
พื้นฐาน Coherent optics สำหรับศูนย์ข้อมูล
เทคโนโลยี Coherent optical ปฏิวัติเครือข่ายศูนย์ข้อมูลโดยการเข้ารหัสข้อมูลทั้งในแอมพลิจูดและเฟสของคลื่นแสง:
หลักการตรวจจับ Coherent: การตรวจจับโดยตรงแบบดั้งเดิมวัดเฉพาะความเข้มของแสง ซึ่งทำได้สูงสุด 100Gbps ต่อความยาวคลื่น การตรวจจับ Coherent จับข้อมูลแอมพลิจูด เฟส และโพลาไรเซชัน ทำให้ได้ 800Gbps ต่อความยาวคลื่นโดยใช้การมอดูเลชัน 16-QAM⁴ ตัวประมวลผลสัญญาณดิจิทัลชดเชย chromatic dispersion และ polarization mode dispersion แบบเรียลไทม์ ตัวรับ Coherent ได้ความไวดีกว่าการตรวจจับโดยตรง 20dB ขยายระยะจาก 10km เป็น 120km โดยไม่ต้องขยายสัญญาณ
การใช้งานมาตรฐาน 400ZR: ข้อกำหนด OIF 400ZR กำหนดอินเทอร์เฟซ coherent 400Gbps แบบ interoperable ที่ปรับให้เหมาะสำหรับการเชื่อมต่อศูนย์ข้อมูล⁵ การมอดูเลชัน 16-QAM เข้ารหัส 4 บิตต่อสัญลักษณ์ข้ามโพลาไรเซชันคู่ การแก้ไขข้อผิดพลาดล่วงหน้าแบบ concatenated ได้อัตราความผิดพลาดบิต 10^-15 ฟอร์มแฟกเตอร์ QSFP-DD รักษาความเข้ากันได้ย้อนหลังกับโครงสร้างพื้นฐานที่มีอยู่ การใช้พลังงานอยู่ต่ำกว่า 15 วัตต์ทำให้สามารถติดตั้งความหนาแน่นสูง
การผสานรวม Silicon Photonics: ทรานซีฟเวอร์ silicon photonics ของ Intel ผสานรวมเลเซอร์ โมดูเลเตอร์ และดีเทกเตอร์บนชิปเดียว⁶ กระบวนการผลิต CMOS ลดต้นทุน 90% เทียบกับส่วนประกอบแยก Waveguides ที่แกะสลักในซิลิคอนส่งสัญญาณออปติคัลด้วยการสูญเสีย 0.1dB/cm Micro-ring resonators ช่วยให้สามารถ wavelength-division multiplexing บนชิป การผสานรวมแบบ Monolithic ขจัดการเชื่อมต่อออปติคัล 80% ที่ทำให้เกิดปัญหาความน่าเชื่อถือ
ข้อได้เปรียบของ Coherent optics สำหรับภาระงาน AI: - แบนด์วิดท์ต่อไฟเบอร์มากกว่าการตรวจจับโดยตรง 8 เท่า - ระยะเข้าถึง 100km โดยไม่มีสถานีขยายสัญญาณ - การชดเชยแบบดิจิทัลสำหรับความบกพร่องออปติคัล - การมอดูเลชันแบบยืดหยุ่นปรับตามความต้องการระยะทาง - ความสามารถปรับความยาวคลื่นช่วยให้การเราท์แบบไดนามิก - การแก้ไขข้อผิดพลาดล่วงหน้ารับประกันความสมบูรณ์ของข้อมูล
รูปแบบสถาปัตยกรรมเครือข่าย
เครือข่ายออปติคัลสำหรับ AI ปฏิบัติตามรูปแบบสถาปัตยกรรมที่แตกต่างกันเพื่อเพิ่มประสิทธิภาพแบนด์วิดท์และความยืดหยุ่น:
Spine-Leaf Optical Fabric: สถาปัตยกรรม spine-leaf แบบออปติคัลทั้งหมดขจัดการสลับอิเล็กทรอนิกส์ในเส้นทางข้อมูล สวิตช์ Leaf เชื่อมต่อกับเซิร์ฟเวอร์ GPU โดยใช้ทรานซีฟเวอร์ 400ZR ชั้น Spine ใช้สวิตช์เลือกความยาวคลื่นเพื่อเราท์ lambda เฉพาะ ลิงก์ spine-leaf แต่ละลิงก์พกพา 32 ความยาวคลื่นที่ 400Gbps รวมเป็น 12.8Tbps Optical amplifiers เพิ่มสัญญาณโดยไม่มีการแปลง optical-electrical-optical ทราฟฟิก east-west ระหว่าง GPU ข้ามการสลับอิเล็กทรอนิกส์ทั้งหมด
Optical Circuit Switching: เครือข่าย Jupiter ของ Google ใช้สวิตช์วงจรออปติคัลสำหรับการถ่ายโอนข้อมูลจำนวนมาก⁷ ตัวควบคุม SDN ส่วนกลางโปรแกรมเส้นทางออปติคัลตามความต้องการทราฟฟิก การสร้างวงจรใช้เวลา 10 นาโนวินาทีเทียบกับ 500 นาโนวินาทีสำหรับการสลับแพ็กเก็ต เส้นทางออปติคัลเฉพาะขจัดการเข้าคิวและความแออัด งานฝึกสำรองแบนด์วิดท์รับประกันประสิทธิภาพที่สม่ำเสมอ การปรับเปลี่ยนแบบไดนามิกปรับตัวตามรูปแบบทราฟฟิกที่เปลี่ยนแปลง
Disaggregated Optical Networks: แยกการขนส่งออปติคัลออกจากฟังก์ชันการประมวลผลแพ็กเก็ต การขนส่งออปติคัลให้ความยาวคลื่นแบบจุดต่อจุด การประมวลผลแพ็กเก็ตเกิดขึ้นเฉพาะที่ขอบเครือข่าย ขจัดอุปกรณ์เครือข่าย 60% จากเส้นทางข้อมูล ลด latency จาก 5 ไมโครวินาทีเป็น 200 นาโนวินาที ทำให้การดำเนินงานง่ายขึ้นผ่านการปรับขนาดอิสระของชั้นออปติคัลและแพ็กเก็ต
Photonic Clos Networks: fabric การสลับออปติคัลหลายขั้นตอนที่ได้รับแรงบันดาลใจจากเครือข่าย Clos สวิตช์ silicon photonic ให้การเชื่อมต่อแบบ non-blocking Arrayed waveguide gratings เราท์ความยาวคลื่นโดยไม่ใช้พลังงาน ปรับขนาดได้ถึง 100,000 พอร์ตด้วยสถาปัตยกรรมสามขั้นตอน การสลับต่ำกว่านาโนวินาทีช่วยให้การจัดการทราฟฟิกแบบละเอียด ความทนทานต่อความผิดพลาดผ่านเส้นทางออปติคัลหลายเส้นทาง
แนวปฏิบัติที่ดีที่สุดในการนำไปใช้
การติดตั้งเครือข่ายออปติคัลที่ประสบความสำเร็จปฏิบัติตามแนวปฏิบัติที่กำหนดไว้:
การวางแผนโครงสร้างพื้นฐานไฟเบอร์: ไฟเบอร์โหมดเดียวรองรับระยะทางสูงสุด 120km ด้วย coherent optics ข้อกำหนดไฟเบอร์เกรด OS2 รับประกันการลดทอน <0.4dB/km รัศมีโค้งขั้นต่ำ 15mm ป้องกันการสูญเสียจาก microbending ระบบการกำหนดสีและการติดฉลากป้องกันการเชื่อมต่อผิด การวิเคราะห์ลักษณะไฟเบอร์โดยใช้ OTDR ระบุความบกพร่องก่อนการติดตั้ง รักษาความจุไฟเบอร์สำรอง 20% สำหรับการขยายในอนาคต
การจัดการพลังงานออปติคัล: กำลังส่งระหว่าง -10dBm และ +5dBm ป้องกันผลกระทบแบบไม่เชิงเส้น Optical amplifiers รักษากำลังที่สม่ำเสมอทั่วสเปกตรัมความยาวคลื่น Variable optical attenuators สมดุลกำลังข้ามเส้นทางขนาน Power monitors ที่จุดเชื่อมต่อแต่ละจุดช่วยให้การแก้ไขปัญหา การควบคุมกำลังอัตโนมัติชดเชยการเสื่อมสภาพของส่วนประกอบ โปรโตคอลความปลอดภัยป้องกันความเสียหายต่อดวงตาจากแสงอินฟราเรดที่มองไม่เห็น
การวางแผนและจัดการความยาวคลื่น: กริด ITU-T กำหนดช่องความยาวคลื่นมาตรฐานหลีกเลี่ยงการรบกวน ระบบ DWDM รองรับ 96 ช่องใน C-band (1530-1565nm) อัลกอริทึมกำหนดความยาวคลื่นป้องกันการแย่งชิง Guard bands ระหว่างช่องลด crosstalk Wavelength lockers รักษาความเสถียรของความถี่ภายใน 2.5GHz การแปลงความยาวคลื่นช่วยให้การเราท์แบบยืดหยุ่น
การทดสอบและการตรวจสอบ: Bit error rate testers ตรวจสอบประสิทธิภาพลิงก์ก่อนการผลิต Optical spectrum analyzers วัดคุณภาพสัญญาณและ OSNR การทดสอบ Polarization mode dispersion รับประกันความเสถียรระยะยาว การวิเคราะห์ Eye diagram ยืนยันความสมบูรณ์ของสัญญาณ การทดสอบ Loopback แยกปัญหาไปยังส่วนเฉพาะ การตรวจสอบอย่างต่อเนื่องตรวจจับการเสื่อมสภาพก่อนความล้มเหลว
Introl ออกแบบและติดตั้งโซลูชันเครือข่ายออปติคัลสำหรับโครงสร้างพื้นฐาน AI ทั่วพื้นที่ครอบคลุมทั่วโลกของเรา พร้อมความเชี่ยวชาญใน coherent optics และ silicon photonics สำหรับการเชื่อมต่อ GPU⁸ ทีมวิศวกรออปติคัลของเราได้นำคลัสเตอร์ AI แบนด์วิดท์สูงมากกว่า 200 แห่งมาใช้โดยใช้เทคโนโลยี photonic ขั้นสูง
การปฏิวัติ Silicon photonics
Silicon photonics นำส่วนประกอบออปติคัลมาอยู่บนชิปเดียวกับโปรเซสเซอร์:
Co-packaged Optics: NVLink ของ NVIDIA ใช้สายทองแดงจำกัดระยะเข้าถึง 2 เมตร Co-packaged optics วางทรานซีฟเวอร์ห่างจากไดย์ GPU เพียงมิลลิเมตร ขจัด serializer/deserializer ที่ใช้ 10 วัตต์ต่อ 100Gbps ลด latency จาก 100 นาโนวินาทีเป็น 10 นาโนวินาที ช่วยให้ได้ 1.6Tbps ต่อขอบแพ็คเกจ GPU OCP 2.0 ของ Intel สาธิต co-packaged optics ที่ 51.2Tbps⁹
All-Optical Switches: สวิตช์ Photonic เราท์สัญญาณออปติคัลโดยไม่มีการแปลง กระจก MEMS เปลี่ยนทิศทางลำแสงใน 10 ไมโครวินาที สวิตช์ silicon photonic บรรลุการปรับเปลี่ยนระดับนาโนวินาที ไม่ใช้พลังงานในสถานะคงที่ ปรับขนาดได้ถึง 1000x1000 พอร์ตในชิปเดียว ขจัดพลังงาน 95% เทียบกับสวิตช์อิเล็กทรอนิกส์
Optical Compute Interconnects: แทนที่ PCIe ด้วยลิงก์ออปติคัลระหว่าง GPU และ CPU CXL over optics ขยายโดเมน memory coherency ไปสู่ระดับแร็ค Cache-coherent optical fabrics ช่วยให้คลัสเตอร์ 10,000 GPU การเชื่อมต่อหน่วยความจำออปติคัลให้แบนด์วิดท์ 10TB/s การแนบออปติคัลโดยตรงกับ HBM memory stacks Passage ของ Lightmatter สาธิตแบนด์วิดท์ chip-to-chip 100Tbps¹⁰
Quantum Dot Lasers: เลเซอร์ Quantum dot ที่ผสานรวมบนซิลิคอนให้แหล่งกำเนิดแสง การทำงานที่ไม่ไวต่ออุณหภูมิขจัดความต้องการการระบายความร้อน อายุการใช้งาน 100,000 ชั่วโมงเกินความน่าเชื่อถือของส่วนประกอบอิเล็กทรอนิกส์ อาร์เรย์ของเลเซอร์ช่วยให้เกิดการขนานขนาดใหญ่ ประสิทธิภาพพลังงาน 0.1 picojoule ต่อบิต การผลิตจำนวนมากโดยใช้กระบวนการเซมิคอนดักเตอร์มาตรฐาน
การติดตั้งออปติคัลในโลกจริง
AI Research SuperCluster ของ Meta: - ขนาด: A100 GPU 16,000 ตัวพร้อมลิงก์ออปติคัล 200Gbps - แบนด์วิดท์: แบนด์วิดท์ fabric รวม 13 petabits/วินาที - สถาปัตยกรรม: Clos สามชั้นพร้อมชั้น spine ออปติคัล - เทคโนโลยี: coherent optics 400ZR สำหรับลิงก์ระหว่างอาคาร - Latency: 1.5 ไมโครวินาทีข้ามแคมปัส 2,000 ฟุต - ผลลัพธ์: การฝึกโมเดลเร็วกว่าโครงสร้างพื้นฐานก่อนหน้า 3 เท่า
Project Sirius ของ Microsoft Azure: - นวัตกรรม: การสลับออปติคัลทั้งหมดสำหรับภาระงาน AI - ประสิทธิภาพ: 12.8Tbps ต่อสวิตช์ออปติคัล - ประสิทธิภาพ: ลดพลังงาน 85% เทียบกับการสลับอิเล็กทรอนิกส์ - ขนาด: เชื่อมต่อ GPU 100,000 ตัวแบบออปติคัล - การสลับ: การสร้างวงจรออปติคัลต่ำกว่าไมโครวินาที - ผลกระทบ: ลดต้นทุนการฝึก 40%
Optical Data Center ของ Alibaba Cloud: - การติดตั้ง: coherent optics 400G ทั่วทั้งสถานที่ - ระยะเข้าถึง: การเชื่อมต่อแคมปัส 40km โดยไม่ต้องขยายสัญญาณ - ความหนาแน่น: 38.4Tbps ต่อแร็คโดยใช้การสลับออปติคัล - พลังงาน: 3 วัตต์ต่อลิงก์ออปติคัล 100Gbps - ความยืดหยุ่น: การเราท์ความยาวคลื่นแบบไดนามิกตามภาระงาน - การประหยัด: ลดค่าใช้จ่ายพลังงานประจำปี 15 ล้านดอลลาร์
Frontier ของ Oak Ridge National Laboratory: - การประมวลผล: AMD MI250X GPU 37,000 ตัว - การเชื่อมต่อ: Slingshot fabric พร้อมลิงก์ออปติคัล - แบนด์วิดท์: แบนด์วิดท์ injection 100GB/s ต่อโหนด - โทโพโลยี: Dragonfly+ พร้อมการเชื่อมต่อกลุ่มออปติคัล - ระยะทาง: ลิงก์ออปติคัลครอบคลุมสถานที่ 300 เมตร - ความสำเร็จ: ระบบ exascale แห่งแรกของโลก
การวิเคราะห์ประสิทธิภาพพลังงาน
เครือข่ายออปติคัลลดการใช้พลังงานศูนย์ข้อมูลอย่างมาก:
การเปรียบเทียบพลังงานลิงก์ (ต่อ 100Gbps): - Copper DAC (3m): 35 วัตต์ - Active optical cable (100m): 12 วัตต์ - Silicon photonics (2km): 5 วัตต์ - Coherent optics (40km): 3.5 วัตต์ - Photonics ในอนาคต: คาดการณ์ <1 วัตต์
การประหยัดระดับระบบ: ชั้น fabric aggregation ของ Facebook ใช้การเชื่อมต่อออปติคัล 90% ประสิทธิภาพการใช้พลังงานปรับปรุงจาก 1.4 เป็น 1.15 ด้วยการสลับออปติคัล พลังงานอุปกรณ์เครือข่ายลดจาก 15% เป็น 5% ของ