Оптичні мережі для ШІ: 400ZR та когерентна оптика для з'єднання GPU
Оновлено 8 грудня 2025 року
Оновлення за грудень 2025 року: Когерентна оптика 800G (800ZR+) вже постачається кількома виробниками, зокрема Cisco, Ciena та Infinera. Демонстрації оптики з суміщеним корпусом (CPO) показують ємність комутатора 51,2T. Лінійна підключувана оптика зменшує споживання енергії на 40% порівняно з рішеннями на основі DSP. NVLink-C2C від NVIDIA використовує кремнієву фотоніку для оптичного з'єднання мікросхем у стійках GB200 NVL72. Прогнозується, що ринок оптики для ШІ-центрів обробки даних досягне 8,2 мільярда доларів до 2028 року, що зумовлено з'єднаннями GPU масштабу стійки, які потребують 400G+ на лінію.
Суперкомп'ютер TPU v5p від Google досягає обчислювальної потужності 8,5 екзафлопс завдяки з'єднанню 8 960 чіпів за допомогою оптичних комутаторів каналів, що забезпечують сукупну пропускну здатність 4 петабіти на секунду з часом перемикання менше 10 наносекунд, дозволяючи динамічну реконфігурацію топології, яка покращує швидкість навчання у 2,7 рази порівняно з традиційною електронною комутацією.¹ Оптичний інтерконект пошукового гіганта споживає 5 ватів на 100 Гбіт/с лінії проти 35 ватів для електронних комутаторів — це 7-кратне підвищення енергоефективності, що економить 24 мільйони доларів щорічно на електроенергії по всій їхній ШІ-інфраструктурі. Традиційні мідні кабелі досягають фізичних обмежень на 3 метрах для з'єднань 400 Гбіт/с, змушуючи центри обробки даних впроваджувати оптичні з'єднання, які підтримують цілісність сигналу на відстані 2 кілометри, водночас усуваючи електромагнітні завади, що спотворюють розрахунки градієнтів під час розподіленого навчання. Організації, які впроваджують оптичні мережі для ШІ, повідомляють про 50% зменшення складності кабельної інфраструктури, 85% нижчу варіативність затримки та можливість динамічно переконфігуровувати топологію мережі відповідно до конкретних архітектур моделей.²
Вибухове зростання параметрів ШІ-моделей — від 175 мільярдів у GPT-3 до, за чутками, 1,7 трильйона у GPT-4 — вимагає мережевої пропускної здатності, яка подвоюється кожні 6 місяців, значно випереджаючи покращення обчислювальної потужності згідно із законом Мура.³ Когерентна оптична технологія, запозичена з магістральних телекомунікацій, тепер з'являється всередині центрів обробки даних із трансиверами 400ZR, що забезпечують 400 Гбіт/с по одномодовому волокну за ціною 4 долари за гігабіт проти 12 доларів для традиційної оптики. Кремнієва фотоніка обіцяє інтеграцію оптичних компонентів безпосередньо на GPU, усуваючи електрично-оптичне перетворення, яке наразі споживає 30% мережевого енергетичного бюджету. Організації, що освоюють оптичні з'єднання для ШІ-інфраструктури, отримують стійкі переваги завдяки вищій щільності пропускної здатності, нижчому енергоспоживанню та гнучкості мережі, неможливій з архітектурами на основі міді.
Основи когерентної оптики для центрів обробки даних
Когерентна оптична технологія революціонізує мережі центрів обробки даних, кодуючи інформацію як в амплітуді, так і у фазі світлових хвиль:
Принципи когерентного детектування: Традиційне пряме детектування вимірює лише інтенсивність світла, досягаючи максимум 100 Гбіт/с на довжину хвилі. Когерентне детектування захоплює інформацію про амплітуду, фазу та поляризацію, забезпечуючи 800 Гбіт/с на довжину хвилі за допомогою модуляції 16-QAM.⁴ Цифрові сигнальні процесори компенсують хроматичну дисперсію та дисперсію поляризаційної моди в реальному часі. Когерентні приймачі досягають чутливості на 20 дБ кращої, ніж пряме детектування, збільшуючи дальність з 10 км до 120 км без підсилення.
Реалізація стандарту 400ZR: Специфікація OIF 400ZR визначає сумісні когерентні інтерфейси 400 Гбіт/с, оптимізовані для з'єднання центрів обробки даних.⁵ Модуляція 16-QAM кодує 4 біти на символ у двох поляризаціях. Каскадна пряма корекція помилок досягає частоти бітових помилок 10^-15. Форм-фактор QSFP-DD підтримує зворотну сумісність з існуючою інфраструктурою. Споживання енергії залишається нижче 15 ватів, забезпечуючи розгортання з високою щільністю.
Інтеграція кремнієвої фотоніки: Трансивери кремнієвої фотоніки Intel інтегрують лазери, модулятори та детектори на одному чіпі.⁶ Процеси виробництва CMOS знижують витрати на 90% порівняно з дискретними компонентами. Хвилеводи, витравлені в кремнії, маршрутизують оптичні сигнали з втратами 0,1 дБ/см. Мікрокільцеві резонатори забезпечують мультиплексування з поділом за довжиною хвилі на чіпі. Монолітна інтеграція усуває 80% оптичних з'єднань, що спричиняють проблеми з надійністю.
Переваги когерентної оптики для ШІ-навантажень: - 8-кратна пропускна здатність на волокно порівняно з прямим детектуванням - Дальність 100 км без підсилювальних станцій - Цифрова компенсація оптичних спотворень - Гнучка модуляція, що адаптується до вимог відстані - Налаштування довжини хвилі для динамічної маршрутизації - Пряма корекція помилок, що забезпечує цілісність даних
Патерни мережевої архітектури
Оптичні мережі для ШІ слідують окремим архітектурним патернам, оптимізованим для пропускної здатності та гнучкості:
Повністю оптична структура Spine-Leaf: Повністю оптична архітектура spine-leaf усуває електронну комутацію на шляху даних. Комутатори рівня leaf підключаються до серверів GPU за допомогою трансиверів 400ZR. Рівень spine використовує комутатори з вибором довжини хвилі для маршрутизації конкретних лямбд. Кожна лінія spine-leaf несе 32 довжини хвилі по 400 Гбіт/с, загалом 12,8 Тбіт/с. Оптичні підсилювачі посилюють сигнали без оптико-електро-оптичного перетворення. Трафік схід-захід між GPU повністю оминає електронну комутацію.
Оптична комутація каналів: Мережа Jupiter від Google використовує оптичні комутатори каналів для масової передачі даних.⁷ Централізований SDN-контролер програмує оптичні шляхи на основі вимог трафіку. Встановлення каналу займає 10 наносекунд проти 500 наносекунд для пакетної комутації. Виділені оптичні шляхи усувають черги та перевантаження. Завдання навчання резервують пропускну здатність, гарантуючи стабільну продуктивність. Динамічна реконфігурація адаптується до змінних патернів трафіку.
Дезагреговані оптичні мережі: Відокремлення оптичного транспорту від функцій обробки пакетів. Оптичний транспорт забезпечує двоточкові довжини хвиль. Обробка пакетів відбувається лише на межах мережі. Усуває 60% мережевого обладнання з шляху даних. Зменшує затримку з 5 мікросекунд до 200 наносекунд. Спрощує операції завдяки незалежному масштабуванню оптичного та пакетного рівнів.
Фотонні мережі Clos: Багатоступеневі оптичні комутаційні структури, натхненні мережами Clos. Кремнієві фотонні комутатори забезпечують неблокуючу зв'язність. Хвилевідні ґратки з масивом маршрутизують довжини хвиль без споживання енергії. Масштабуються до 100 000 портів з триступеневою архітектурою. Субнаносекундна комутація забезпечує дрібнозернисту інженерію трафіку. Відмовостійкість через множинні оптичні шляхи.
Найкращі практики впровадження
Успішні розгортання оптичних мереж дотримуються усталених практик:
Планування волоконної інфраструктури: Одномодове волокно підтримує відстані до 120 км з когерентною оптикою. Специфікації волокна класу OS2 забезпечують затухання <0,4 дБ/км. Мінімальний радіус вигину 15 мм запобігає втратам від мікровигинів. Системи кольорового кодування та маркування запобігають неправильним підключенням. Характеризація волокна за допомогою OTDR виявляє спотворення перед розгортанням. Підтримуйте 20% запасу волоконної ємності для майбутнього розширення.
Управління оптичною потужністю: Потужність запуску від -10 дБм до +5 дБм запобігає нелінійним ефектам. Оптичні підсилювачі підтримують стабільну потужність по всьому спектру довжин хвиль. Змінні оптичні атенюатори балансують потужність по паралельних шляхах. Монітори потужності в кожній точці підключення забезпечують діагностику. Автоматичне регулювання потужності компенсує старіння компонентів. Протоколи безпеки запобігають пошкодженню очей від невидимого інфрачервоного світла.
Планування та управління довжинами хвиль: Сітка ITU-T визначає стандартні канали довжин хвиль, уникаючи інтерференції. Системи DWDM підтримують 96 каналів у C-діапазоні (1530-1565 нм). Алгоритми призначення довжин хвиль запобігають конфліктам. Захисні інтервали між каналами зменшують перехресні завади. Фіксатори довжин хвиль підтримують стабільність частоти в межах 2,5 ГГц. Перетворення довжин хвиль забезпечує гнучку маршрутизацію.
Тестування та валідація: Тестери частоти бітових помилок перевіряють продуктивність лінії перед введенням у експлуатацію. Оптичні аналізатори спектра вимірюють якість сигналу та OSNR. Тестування дисперсії поляризаційної моди забезпечує довгострокову стабільність. Аналіз діаграми ока підтверджує цілісність сигналу. Тестування петлі ізолює проблеми до конкретних сегментів. Постійний моніторинг виявляє деградацію до відмов.
Introl проектує та розгортає рішення оптичних мереж для ШІ-інфраструктури по всій нашій глобальній зоні покриття, з експертизою в когерентній оптиці та кремнієвій фотоніці для з'єднань GPU.⁸ Наші команди оптичної інженерії впровадили понад 200 високопропускних ШІ-кластерів з використанням передових фотонних технологій.
Революція кремнієвої фотоніки
Кремнієва фотоніка переносить оптичні компоненти на ті самі чіпи, що й процесори:
Оптика з суміщеним корпусом: NVLink від NVIDIA використовує мідні кабелі, обмежуючи дальність до 2 метрів. Оптика з суміщеним корпусом розміщує трансивери на відстані міліметрів від кристалів GPU. Усуває серіалізатор/десеріалізатор, що споживає 10 ватів на 100 Гбіт/с. Зменшує затримку зі 100 наносекунд до 10 наносекунд. Забезпечує 1,6 Тбіт/с на край корпусу GPU. OCP 2.0 від Intel демонструє оптику з суміщеним корпусом на 51,2 Тбіт/с.⁹
Повністю оптичні комутатори: Фотонні комутатори маршрутизують оптичні сигнали без перетворення. MEMS-дзеркала перенаправляють світлові промені за 10 мікросекунд. Кремнієві фотонні комутатори досягають наносекундної реконфігурації. Нульове споживання енергії в стаціонарному стані. Масштабуються до 1000x1000 портів на одному чіпі. Усувають 95% споживання енергії порівняно з електронними комутаторами.
Оптичні обчислювальні інтерконекти: Заміна PCIe оптичними лініями між GPU та CPU. CXL через оптику розширює домени когерентності пам'яті до масштабу стійки. Кеш-когерентні оптичні структури забезпечують кластери з 10 000 GPU. Оптичні інтерконекти пам'яті забезпечують пропускну здатність 10 ТБ/с. Пряме оптичне підключення до стеків пам'яті HBM. Passage від Lightmatter демонструє пропускну здатність 100 Тбіт/с між чіпами.¹⁰
Лазери на квантових точках: Лазери на квантових точках, інтегровані в кремній, забезпечують джерела світла. Температурно-нечутлива робота усуває вимоги до охолодження. Термін служби 100 000 годин перевищує надійність електронних компонентів. Масиви лазерів забезпечують масивний паралелізм. Енергоефективність 0,1 пікоджоуля на біт. Масове виробництво з використанням стандартних напівпровідникових процесів.
Реальні оптичні розгортання
AI Research SuperCluster від Meta: - Масштаб: 16 000 GPU A100 з оптичними лініями 200 Гбіт/с - Пропускна здатність: сукупна пропускна здатність структури 13 петабіт/секунду - Архітектура: трирівневий Clos з оптичним рівнем spine - Технологія: когерентна оптика 400ZR для міжбудівельних ліній - Затримка: 1,5 мікросекунди на кампусі завдовжки 600 метрів - Результат: 3-кратне прискорення навчання моделей порівняно з попередньою інфраструктурою
Project Sirius від Microsoft Azure: - Інновація: повністю оптична комутація для ШІ-навантажень - Продуктивність: 12,8 Тбіт/с на оптичний комутатор - Ефективність: 85% зниження споживання енергії порівняно з електронною комутацією - Масштаб: оптичне з'єднання 100 000 GPU - Комутація: субмікросекундне встановлення оптичного каналу - Вплив: 40% зниження витрат на навчання
Оптичний центр обробки даних Alibaba Cloud: - Розгортання: когерентна оптика 400G по всьому об'єкту - Дальність: зв'язність кампусу 40 км без підсилення - Щільність: 38,4 Тбіт/с на стійку з використанням оптичної комутації - Потужність: 3 вати на 100 Гбіт/с оптичної лінії - Гнучкість: динамічна маршрутизація довжин хвиль на основі навантаження - Економія: 15 мільйонів доларів річного зниження витрат на електроенергію
Frontier в Національній лабораторії Оук-Рідж: - Обчислення: 37 000 GPU AMD MI250X - Інтерконект: структура Slingshot з оптичними лініями - Пропускна здатність: 100 ГБ/с інжекційної пропускної здатності на вузол - Топологія: Dragonfly+ з оптичними груповими з'єднаннями - Відстань: оптичні лінії охоплюють об'єкт завдовжки 300 метрів - Досягнення: перша у світі екзамасштабна система
Аналіз енергоефективності
Оптичні мережі драматично знижують споживання енергії центрами обробки даних:
Порівняння потужності лінії (на 100 Гбіт/с): - Мідний DAC (3 м): 35 ватів - Активний оптичний кабель (100 м): 12 ватів - Кремнієва фотоніка (2 км): 5 ватів - Когерентна оптика (40 км): 3,5 вати - Майбутня фотоніка: прогноз <1 вати
Економія на системному рівні: Рівень агрегації структури Facebook використовує 90% оптичних з'єднань. Ефективність використання енергії покращується з 1,4 до 1,15 з оптичною комутацією. Споживання енергії мережевим обладнанням падає з 15% до 5% о
[Вміст скорочено для перекладу]