AI向け光ネットワーキング:GPUインターコネクトのための400ZRとコヒーレント光通信

Googleの8,960チップスーパーコンピュータは、10ナノ秒のスイッチングで4Pb/sを実現する光スイッチを使用。400ZRとシリコンフォトニクスで7倍の電力効率を達成。

AI向け光ネットワーキング:GPUインターコネクトのための400ZRとコヒーレント光通信

AI向け光ネットワーキング:GPUインターコネクトのための400ZRとコヒーレント光通信

2025年12月8日更新

2025年12月アップデート: Cisco、Ciena、Infineraを含む複数のベンダーから800Gコヒーレント光通信(800ZR+)が出荷開始。51.2Tスイッチ容量でのコパッケージド光通信(CPO)デモンストレーションが実施された。リニアドライブプラガブル光通信により、DSPベースソリューションと比較して消費電力が40%削減。NVIDIAのNVLink-C2Cは、GB200 NVL72ラックでチップ間光インターコネクトにシリコンフォトニクスを使用。AIデータセンター光通信市場は、リンクあたり400G以上を必要とするラックスケールGPUインターコネクトの需要により、2028年までに82億ドルに達すると予測されている。

GoogleのTPU v5pスーパーコンピュータは、4ペタビット/秒の総帯域幅と10ナノ秒未満のスイッチング時間を実現する光回線スイッチを使用して8,960チップを相互接続することで、8.5エクサフロップスの計算能力を達成している。この動的トポロジー再構成により、従来の電子スイッチングと比較してトレーニング速度が2.7倍向上した。¹ 検索大手の光インターコネクトは100Gbpsリンクあたり5ワットを消費するのに対し、電子スイッチは35ワットを消費する—この7倍の電力効率向上により、AIインフラ全体で年間2,400万ドルの電気代を節約している。従来の銅ケーブルは400Gbps接続で3メートルという物理的限界に達するため、データセンターは2キロメートル以上でも信号整合性を維持し、分散トレーニング中の勾配計算を破損させる電磁干渉を排除する光インターコネクトの採用を余儀なくされている。AI向け光ネットワーキングを導入している組織は、ケーブル配線の複雑さが50%削減、レイテンシのばらつきが85%低減し、特定のモデルアーキテクチャに合わせてネットワークトポロジーを動的に再構成できる能力を報告している。²

AIモデルパラメータの爆発的成長—GPT-3の1,750億からGPT-4の推定1.7兆へ—は、6か月ごとに倍増するネットワーク帯域幅を要求し、ムーアの法則による計算能力の改善をはるかに上回っている。³ 長距離通信から借用したコヒーレント光通信技術は、現在データセンター内部に登場し、400ZRトランシーバーが従来の光通信の1ギガビットあたり12ドルに対して4ドルでシングルモードファイバー上で400Gbpsを実現している。シリコンフォトニクスは光コンポーネントをGPUに直接統合することを約束し、現在ネットワーキング電力予算の30%を消費している電気-光変換を排除する。AIインフラ向け光インターコネクトをマスターした組織は、優れた帯域幅密度、低消費電力、銅ベースアーキテクチャでは不可能なネットワーク柔軟性を通じて持続可能な優位性を獲得している。

データセンター向けコヒーレント光通信の基礎

コヒーレント光通信技術は、光波の振幅と位相の両方に情報をエンコードすることでデータセンターネットワーキングに革命をもたらす:

コヒーレント検出の原理: 従来の直接検出は光強度のみを測定し、波長あたり最大100Gbpsを達成する。コヒーレント検出は振幅、位相、偏波情報を捕捉し、16-QAM変調を使用して波長あたり800Gbpsを実現する。⁴ デジタル信号プロセッサは色分散と偏波モード分散をリアルタイムで補償する。コヒーレント受信機は直接検出より20dB優れた感度を達成し、増幅なしで到達距離を10kmから120kmに拡大する。

400ZR規格の実装: OIF 400ZR仕様は、データセンター相互接続に最適化された相互運用可能な400Gbpsコヒーレントインターフェースを定義している。⁵ 16-QAM変調はデュアル偏波で1シンボルあたり4ビットをエンコードする。連結前方誤り訂正により10^-15のビット誤り率を達成。QSFP-DDフォームファクタは既存インフラとの後方互換性を維持。消費電力は15ワット以下に抑えられ、高密度展開を可能にする。

シリコンフォトニクス統合: Intelのシリコンフォトニクストランシーバーは、レーザー、変調器、検出器を単一チップに統合している。⁶ CMOS製造プロセスにより、ディスクリートコンポーネントと比較してコストが90%削減。シリコンにエッチングされた導波路は0.1dB/cmの損失で光信号をルーティング。マイクロリング共振器によりチップ上で波長分割多重を実現。モノリシック統合により、信頼性問題を引き起こす光接続の80%を排除。

AIワークロード向けコヒーレント光通信の利点: - 直接検出と比較してファイバーあたり8倍の帯域幅 - 増幅局なしで100kmの到達距離 - 光学的欠陥のデジタル補償 - 距離要件に適応する柔軟な変調 - 動的ルーティングを可能にする波長可変性 - データ整合性を確保する前方誤り訂正

ネットワークアーキテクチャパターン

AI向け光ネットワークは、帯域幅と柔軟性を最適化する独自のアーキテクチャパターンに従う:

スパイン-リーフ光ファブリック: 全光スパイン-リーフアーキテクチャはデータパスから電子スイッチングを排除。リーフスイッチは400ZRトランシーバーを使用してGPUサーバーに接続。スパイン層は特定のラムダをルーティングする波長選択スイッチを使用。各スパイン-リーフリンクは400Gbpsで32波長を搬送し、合計12.8Tbps。光増幅器は光-電気-光変換なしで信号を増幅。GPU間の東西トラフィックは電子スイッチングを完全にバイパス。

光回線スイッチング: Googleの Jupiter ネットワークはバルクデータ転送に光回線スイッチを使用。⁷ 集中型SDNコントローラーがトラフィック需要に基づいて光パスをプログラム。回線確立にかかる時間はパケットスイッチングの500ナノ秒に対して10ナノ秒。専用光パスによりキューイングと輻輳を排除。トレーニングジョブは一貫したパフォーマンスを保証する帯域幅を予約。動的再構成が変化するトラフィックパターンに適応。

ディスアグリゲート光ネットワーク: 光トランスポートをパケット処理機能から分離。光トランスポートはポイントツーポイント波長を提供。パケット処理はネットワークエッジでのみ実行。データパスからネットワーク機器の60%を排除。レイテンシを5マイクロ秒から200ナノ秒に削減。光層とパケット層の独立したスケーリングにより運用を簡素化。

フォトニックClosネットワーク: Closネットワークに触発された多段光スイッチングファブリック。シリコンフォトニックスイッチがノンブロッキング接続を提供。アレイ導波路格子が電力消費なしで波長をルーティング。3段アーキテクチャで100,000ポートまでスケール。サブナノ秒スイッチングにより細粒度トラフィックエンジニアリングを実現。複数の光パスによるフォールトトレランス。

実装ベストプラクティス

成功する光ネットワーク導入は確立されたプラクティスに従う:

ファイバーインフラ計画: シングルモードファイバーはコヒーレント光通信で最大120kmの距離をサポート。OS2グレードファイバー仕様により<0.4dB/kmの減衰を確保。最小曲げ半径15mmでマイクロベンディング損失を防止。カラーコーディングとラベリングシステムで誤接続を防止。OTDRを使用したファイバー特性評価で導入前に欠陥を特定。将来の拡張のため20%の予備ファイバー容量を維持。

光パワー管理: -10dBmから+5dBmの間の投入パワーで非線形効果を防止。光増幅器が波長スペクトル全体で一貫したパワーを維持。可変光減衰器が並列パス間でパワーをバランス。各接続点のパワーモニターでトラブルシューティングを可能に。自動パワー制御がコンポーネントの経年劣化を補償。不可視赤外線による眼損傷を防ぐ安全プロトコル。

波長計画と管理: ITU-Tグリッドが干渉を回避する標準波長チャネルを定義。DWDMシステムはCバンド(1530-1565nm)で96チャネルをサポート。波長割り当てアルゴリズムが競合を防止。チャネル間のガードバンドでクロストークを削減。波長ロッカーが2.5GHz以内の周波数安定性を維持。波長変換により柔軟なルーティングを実現。

テストと検証: ビット誤り率テスターで本番前にリンク性能を検証。光スペクトラムアナライザで信号品質とOSNRを測定。偏波モード分散テストで長期安定性を確保。アイダイアグラム分析で信号整合性を確認。ループバックテストで問題を特定のセグメントに分離。継続的モニタリングで障害前に劣化を検出。

Introlは、グローバルカバレッジエリア全体でAIインフラ向け光ネットワーキングソリューションを設計・導入しており、GPUインターコネクト向けコヒーレント光通信とシリコンフォトニクスの専門知識を有している。⁸ 当社の光エンジニアリングチームは、先進的なフォトニック技術を使用して200以上の高帯域幅AIクラスターを実装してきた。

シリコンフォトニクス革命

シリコンフォトニクスは光コンポーネントをプロセッサと同じチップ上にもたらす:

コパッケージド光通信: NVIDIAのNVLinkは到達距離を2メートルに制限する銅ケーブルを使用。コパッケージド光通信はトランシーバーをGPUダイからミリメートルの距離に配置。100Gbpsあたり10ワットを消費するシリアライザ/デシリアライザを排除。レイテンシを100ナノ秒から10ナノ秒に削減。GPUパッケージエッジあたり1.6Tbpsを実現。IntelのOCP 2.0は51.2Tbpsでコパッケージド光通信を実証。⁹

全光スイッチ: フォトニックスイッチは変換なしで光信号をルーティング。MEMSミラーが10マイクロ秒で光ビームをリダイレクト。シリコンフォトニックスイッチはナノ秒の再構成を達成。定常状態でゼロ電力消費。単一チップで1000x1000ポートまでスケール。電子スイッチと比較して95%の電力を削減。

光コンピュートインターコネクト: GPUとCPU間のPCIeを光リンクに置き換え。光経由のCXLがメモリコヒーレンシドメインをラックスケールまで拡張。キャッシュコヒーレント光ファブリックが10,000 GPUクラスターを可能に。光メモリインターコネクトが10TB/sの帯域幅を提供。HBMメモリスタックへの直接光接続。LightmatterのPassageが100Tbpsのチップ間帯域幅を実証。¹⁰

量子ドットレーザー: シリコン上に統合された量子ドットレーザーが光源を提供。温度非依存動作により冷却要件を排除。100,000時間の寿命が電子コンポーネントの信頼性を超越。レーザーアレイが大規模並列処理を実現。ビットあたり0.1ピコジュールのエネルギー効率。標準半導体プロセスによる量産。

実世界の光通信導入事例

MetaのAI Research SuperCluster: - 規模:200Gbps光リンクを持つ16,000基のA100 GPU - 帯域幅:13ペタビット/秒の総ファブリック帯域幅 - アーキテクチャ:光スパイン層を持つ3層Clos - 技術:建物間リンク用400ZRコヒーレント光通信 - レイテンシ:2,000フィートのキャンパス全体で1.5マイクロ秒 - 結果:以前のインフラと比較して3倍高速なモデルトレーニング

Microsoft AzureのProject Sirius: - イノベーション:AIワークロード向け全光スイッチング - パフォーマンス:光スイッチあたり12.8Tbps - 効率:電子スイッチングと比較して85%の電力削減 - 規模:100,000 GPUを光学的に接続 - スイッチング:サブマイクロ秒の光回線確立 - 影響:トレーニングコストの40%削減

Alibaba Cloudの光データセンター: - 導入:施設全体に400Gコヒーレント光通信 - 到達距離:増幅なしで40kmのキャンパス接続 - 密度:光スイッチングを使用してラックあたり38.4Tbps - 電力:100Gbps光リンクあたり3ワット - 柔軟性:ワークロードに基づく動的波長ルーティング - 節約:年間1,500万ドルの電力コスト削減

Oak Ridge National LaboratoryのFrontier: - 計算:37,000基のAMD MI250X GPU - インターコネクト:光リンクを持つSlingfishファブリック - 帯域幅:ノードあたり100GB/sの注入帯域幅 - トポロジー:光グループ接続を持つDragonfly+ - 距離:300メートルの施設をまたぐ光リンク - 達成:世界初のエクサスケールシステム

電力効率分析

光ネットワーキングはデータセンターの消費電力を劇的に削減する:

リンク電力比較(100Gbpsあたり): - 銅DAC(3m):35ワット - アクティブ光ケーブル(100m):12ワット - シリコンフォトニクス(2km):5ワット - コヒーレント光通信(40km):3.5ワット - 将来のフォトニクス:<1ワット(予測)

システムレベルの節約: Facebookのファブリック集約層は90%の光インターコネクトを使用。光スイッチングによりPUEが1.4から1.15に改善。ネットワーク機器の電力が15%から5%に低下

お見積り依頼_

プロジェクトについてお聞かせください。72時間以内にご回答いたします。

> TRANSMISSION_COMPLETE

リクエストを受信しました_

お問い合わせありがとうございます。弊社チームがリクエストを確認し、72時間以内に回答いたします。

QUEUED FOR PROCESSING