AI를 위한 광 네트워킹: GPU 인터커넥트를 위한 400ZR 및 코히어런트 광학
2025년 12월 8일 업데이트
2025년 12월 업데이트: Cisco, Ciena, Infinera 등 여러 벤더에서 800G 코히어런트 광학(800ZR+) 출하 중. 51.2T 스위치 용량의 Co-packaged optics(CPO) 시연. Linear-drive pluggable optics가 DSP 기반 솔루션 대비 전력 40% 절감. NVIDIA의 NVLink-C2C가 GB200 NVL72 랙에서 칩 간 광 인터커넥트에 실리콘 포토닉스 사용. AI 데이터센터 광학 시장은 링크당 400G+ 요구하는 랙 스케일 GPU 인터커넥트 수요에 힘입어 2028년까지 82억 달러에 도달할 전망.
Google의 TPU v5p 슈퍼컴퓨터는 10나노초 미만의 스위칭 시간으로 초당 4페타비트의 총 대역폭을 제공하는 광 회로 스위치를 사용해 8,960개의 칩을 연결함으로써 8.5 엑사플롭스의 컴퓨팅 성능을 달성하며, 이를 통한 동적 토폴로지 재구성은 기존 전자 스위칭 대비 학습 속도를 2.7배 향상시킵니다.¹ 이 검색 거대 기업의 광 인터커넥트는 100Gbps 링크당 5와트를 소비하는 반면 전자 스위치는 35와트를 사용해 7배의 전력 효율 향상을 실현하며, AI 인프라 전체에서 연간 2,400만 달러의 전기료를 절감합니다. 기존 구리 케이블은 400Gbps 연결에서 3미터의 물리적 한계에 도달하여, 분산 학습 중 그래디언트 계산을 손상시키는 전자기 간섭을 제거하면서 2킬로미터에 걸쳐 신호 무결성을 유지하는 광 인터커넥트 도입이 불가피해졌습니다. AI를 위한 광 네트워킹을 배포하는 조직들은 케이블링 복잡성 50% 감소, 레이턴시 변동 85% 감소, 그리고 특정 모델 아키텍처에 맞춰 네트워크 토폴로지를 동적으로 재구성하는 능력을 보고합니다.²
AI 모델 파라미터의 폭발적 증가—GPT-3의 1,750억 개에서 GPT-4의 1.7조 개로 추정—는 6개월마다 두 배로 늘어나는 네트워크 대역폭을 요구하며, 이는 컴퓨팅 분야의 무어의 법칙 개선 속도를 훨씬 앞지릅니다.³ 장거리 통신에서 차용한 코히어런트 광학 기술이 이제 데이터센터 내부에 등장하여 400ZR 트랜시버가 기존 광학의 기가비트당 12달러 대비 4달러로 싱글모드 파이버에서 400Gbps를 제공합니다. 실리콘 포토닉스는 광학 컴포넌트를 GPU에 직접 통합하여 현재 네트워킹 전력 예산의 30%를 소비하는 전기-광 변환을 제거할 것을 약속합니다. AI 인프라용 광 인터커넥트를 마스터하는 조직은 구리 기반 아키텍처로는 불가능한 우수한 대역폭 밀도, 낮은 전력 소비, 네트워크 유연성을 통해 지속 가능한 경쟁 우위를 확보합니다.
데이터센터를 위한 코히어런트 광학 기초
코히어런트 광학 기술은 광파의 진폭과 위상 모두에 정보를 인코딩하여 데이터센터 네트워킹을 혁신합니다:
코히어런트 검출 원리: 기존 직접 검출은 광 강도만 측정하여 파장당 최대 100Gbps를 달성합니다. 코히어런트 검출은 진폭, 위상, 편광 정보를 캡처하여 16-QAM 변조로 파장당 800Gbps를 구현합니다.⁴ 디지털 신호 프로세서가 색분산 및 편광 모드 분산을 실시간으로 보상합니다. 코히어런트 수신기는 직접 검출보다 20dB 우수한 감도를 달성하여 증폭 없이 도달 거리를 10km에서 120km로 확장합니다.
400ZR 표준 구현: OIF 400ZR 사양은 데이터센터 인터커넥트에 최적화된 상호운용 가능한 400Gbps 코히어런트 인터페이스를 정의합니다.⁵ 16-QAM 변조는 이중 편광에 걸쳐 심볼당 4비트를 인코딩합니다. 연결 순방향 오류 정정으로 10^-15 비트 오류율을 달성합니다. QSFP-DD 폼 팩터는 기존 인프라와의 하위 호환성을 유지합니다. 전력 소비는 15와트 미만으로 고밀도 배포를 가능하게 합니다.
실리콘 포토닉스 통합: Intel의 실리콘 포토닉스 트랜시버는 레이저, 변조기, 검출기를 단일 칩에 통합합니다.⁶ CMOS 제조 공정으로 개별 부품 대비 비용을 90% 절감합니다. 실리콘에 식각된 도파관은 0.1dB/cm 손실로 광 신호를 라우팅합니다. 마이크로링 공진기는 칩 내 파장분할다중화를 가능하게 합니다. 모놀리식 통합으로 신뢰성 문제를 일으키는 광 연결의 80%를 제거합니다.
AI 워크로드를 위한 코히어런트 광학의 장점: - 직접 검출 대비 파이버당 8배 대역폭 - 증폭 스테이션 없이 100km 도달 - 광학적 손상에 대한 디지털 보상 - 거리 요구사항에 맞는 유연한 변조 - 동적 라우팅을 가능하게 하는 파장 가변성 - 데이터 무결성을 보장하는 순방향 오류 정정
네트워크 아키텍처 패턴
AI를 위한 광 네트워크는 대역폭과 유연성을 최적화하는 고유한 아키텍처 패턴을 따릅니다:
Spine-Leaf 광 패브릭: 전광(all-optical) spine-leaf 아키텍처는 데이터 경로에서 전자 스위칭을 제거합니다. Leaf 스위치는 400ZR 트랜시버를 사용하여 GPU 서버에 연결합니다. Spine 레이어는 특정 람다를 라우팅하는 파장선택 스위치를 사용합니다. 각 spine-leaf 링크는 400Gbps에서 32개 파장을 전달하여 총 12.8Tbps입니다. 광 증폭기는 광-전기-광 변환 없이 신호를 부스트합니다. GPU 간 동서 트래픽은 전자 스위칭을 완전히 우회합니다.
광 회로 스위칭: Google의 Jupiter 네트워크는 대용량 데이터 전송에 광 회로 스위치를 사용합니다.⁷ 중앙집중식 SDN 컨트롤러가 트래픽 수요에 따라 광 경로를 프로그래밍합니다. 회로 설정은 패킷 스위칭의 500나노초 대비 10나노초가 걸립니다. 전용 광 경로로 큐잉과 혼잡을 제거합니다. 학습 작업은 일관된 성능을 보장하는 대역폭을 예약합니다. 동적 재구성으로 변화하는 트래픽 패턴에 적응합니다.
분리형 광 네트워크: 광 전송을 패킷 처리 기능과 분리합니다. 광 전송은 포인트 투 포인트 파장을 제공합니다. 패킷 처리는 네트워크 엣지에서만 발생합니다. 데이터 경로에서 네트워크 장비의 60%를 제거합니다. 레이턴시를 5마이크로초에서 200나노초로 감소시킵니다. 광학 및 패킷 레이어의 독립적 확장을 통해 운영을 단순화합니다.
포토닉 Clos 네트워크: Clos 네트워크에서 영감을 받은 다단계 광 스위칭 패브릭. 실리콘 포토닉 스위치가 논블로킹 연결을 제공합니다. 어레이 도파관 그레이팅이 전력 소비 없이 파장을 라우팅합니다. 3단계 아키텍처로 100,000 포트까지 확장됩니다. 서브나노초 스위칭으로 세밀한 트래픽 엔지니어링을 가능하게 합니다. 다중 광 경로를 통한 내결함성.
구현 모범 사례
성공적인 광 네트워크 배포는 확립된 관행을 따릅니다:
파이버 인프라 계획: 싱글모드 파이버는 코히어런트 광학으로 최대 120km 거리를 지원합니다. OS2 등급 파이버 사양은 <0.4dB/km 감쇠를 보장합니다. 최소 굽힘 반경 15mm로 마이크로벤딩 손실을 방지합니다. 색상 코딩 및 라벨링 시스템으로 오연결을 방지합니다. OTDR을 사용한 파이버 특성화로 배포 전 손상을 식별합니다. 향후 확장을 위해 20%의 여유 파이버 용량을 유지합니다.
광 전력 관리: -10dBm에서 +5dBm 사이의 발사 전력으로 비선형 효과를 방지합니다. 광 증폭기는 파장 스펙트럼 전체에 걸쳐 일관된 전력을 유지합니다. 가변 광 감쇠기가 병렬 경로 간 전력을 균형 있게 조정합니다. 각 연결 지점의 전력 모니터로 문제 해결이 가능합니다. 자동 전력 제어로 컴포넌트 노화를 보상합니다. 안전 프로토콜로 보이지 않는 적외선 광으로 인한 눈 손상을 방지합니다.
파장 계획 및 관리: ITU-T 그리드가 간섭을 피하는 표준 파장 채널을 정의합니다. DWDM 시스템은 C-band(1530-1565nm)에서 96개 채널을 지원합니다. 파장 할당 알고리즘으로 충돌을 방지합니다. 채널 간 가드밴드로 누화를 줄입니다. 파장 잠금 장치가 2.5GHz 이내의 주파수 안정성을 유지합니다. 파장 변환으로 유연한 라우팅이 가능합니다.
테스트 및 검증: 비트 오류율 테스터가 프로덕션 전 링크 성능을 검증합니다. 광 스펙트럼 분석기가 신호 품질과 OSNR을 측정합니다. 편광 모드 분산 테스트로 장기 안정성을 보장합니다. 아이 다이어그램 분석으로 신호 무결성을 확인합니다. 루프백 테스트로 특정 세그먼트의 문제를 분리합니다. 지속적인 모니터링으로 장애 전 성능 저하를 감지합니다.
Introl은 전 세계 서비스 지역에서 AI 인프라를 위한 광 네트워킹 솔루션을 설계하고 배포하며, GPU 인터커넥트를 위한 코히어런트 광학 및 실리콘 포토닉스 전문성을 보유하고 있습니다.⁸ 당사의 광학 엔지니어링 팀은 첨단 포토닉 기술을 사용하여 200개 이상의 고대역폭 AI 클러스터를 구현했습니다.
실리콘 포토닉스 혁명
실리콘 포토닉스는 광학 컴포넌트를 프로세서와 동일한 칩에 통합합니다:
Co-packaged Optics: NVIDIA의 NVLink는 도달 거리를 2미터로 제한하는 구리 케이블을 사용합니다. Co-packaged optics는 트랜시버를 GPU 다이에서 수 밀리미터 거리에 배치합니다. 100Gbps당 10와트를 소비하는 직렬화기/역직렬화기를 제거합니다. 레이턴시를 100나노초에서 10나노초로 줄입니다. GPU 패키지 엣지당 1.6Tbps를 가능하게 합니다. Intel의 OCP 2.0이 51.2Tbps에서 co-packaged optics를 시연합니다.⁹
전광 스위치: 포토닉 스위치는 변환 없이 광 신호를 라우팅합니다. MEMS 미러는 10마이크로초 내에 광선을 리디렉션합니다. 실리콘 포토닉 스위치는 나노초 재구성을 달성합니다. 정상 상태에서 전력 소비가 없습니다. 단일 칩에서 1000x1000 포트까지 확장됩니다. 전자 스위치 대비 전력의 95%를 제거합니다.
광 컴퓨트 인터커넥트: GPU와 CPU 간 PCIe를 광 링크로 대체합니다. 광학을 통한 CXL이 메모리 일관성 도메인을 랙 스케일로 확장합니다. 캐시 일관성 광 패브릭이 10,000 GPU 클러스터를 가능하게 합니다. 광 메모리 인터커넥트가 10TB/s 대역폭을 제공합니다. HBM 메모리 스택에 직접 광학 연결. Lightmatter의 Passage가 100Tbps 칩 간 대역폭을 시연합니다.¹⁰
양자점 레이저: 실리콘에 통합된 양자점 레이저가 광원을 제공합니다. 온도 무감 동작으로 냉각 요구사항을 제거합니다. 100,000시간 수명으로 전자 컴포넌트 신뢰성을 초과합니다. 레이저 어레이로 대규모 병렬 처리가 가능합니다. 비트당 0.1피코줄의 에너지 효율. 표준 반도체 공정을 사용한 대량 생산.
실제 광학 배포 사례
Meta의 AI 리서치 슈퍼클러스터: - 규모: 200Gbps 광 링크를 갖춘 16,000개 A100 GPU - 대역폭: 초당 13페타비트 총 패브릭 대역폭 - 아키텍처: 광 spine 레이어를 갖춘 3단 Clos - 기술: 건물 간 링크에 400ZR 코히어런트 광학 - 레이턴시: 2,000피트 캠퍼스 전체에서 1.5마이크로초 - 결과: 이전 인프라 대비 3배 빠른 모델 학습
Microsoft Azure의 Project Sirius: - 혁신: AI 워크로드를 위한 전광 스위칭 - 성능: 광 스위치당 12.8Tbps - 효율성: 전자 스위칭 대비 85% 전력 절감 - 규모: 100,000개 GPU를 광학적으로 연결 - 스위칭: 서브마이크로초 광 회로 설정 - 영향: 학습 비용 40% 절감
Alibaba Cloud의 광 데이터센터: - 배포: 시설 전체에 400G 코히어런트 광학 - 도달: 증폭 없이 40km 캠퍼스 연결 - 밀도: 광 스위칭을 사용하여 랙당 38.4Tbps - 전력: 100Gbps 광 링크당 3와트 - 유연성: 워크로드 기반 동적 파장 라우팅 - 절감: 연간 1,500만 달러 전력 비용 절감
Oak Ridge 국립연구소의 Frontier: - 컴퓨트: 37,000개 AMD MI250X GPU - 인터커넥트: 광 링크를 갖춘 Slingshot 패브릭 - 대역폭: 노드당 100GB/s 주입 대역폭 - 토폴로지: 광 그룹 연결을 갖춘 Dragonfly+ - 거리: 300미터 시설에 걸친 광 링크 - 성과: 세계 최초의 엑사스케일 시스템
전력 효율 분석
광 네트워킹은 데이터센터 전력 소비를 극적으로 줄입니다:
링크 전력 비교 (100Gbps당): - 구리 DAC (3m): 35와트 - 액티브 광 케이블 (100m): 12와트 - 실리콘 포토닉스 (2km): 5와트 - 코히어런트 광학 (40km): 3.5와트 - 미래 포토닉스: 1와트 미만 전망
시스템 수준 절감: Facebook의 패브릭 집계 레이어는 90% 광 인터커넥트를 사용합니다. 전력 사용 효율(PUE)이 광 스위칭으로 1.4에서 1.15로 개선됩니다. 네트워크 장비 전력이 15%에서 5%로 감소합니다.
[번역 분량 제한으로 내용 일부 생략]