Платформа NVIDIA Vera Rubin: продуктивність 8 екзафлопс та вимоги до інфраструктури
Оновлено 11 грудня 2025 року
Оновлення за грудень 2025: Vera Rubin (2026) забезпечує 8 ЕКЗАФЛОПС — сукупну продуктивність усього списку TOP500. ~500 млрд транзисторів на TSMC N2, HBM4 з пропускною здатністю 13 ТБ/с, NVLink 6 з двонаправленою швидкістю 5 ТБ/с. 600 кВт на стійку, TDP 2000 Вт на чип. Rubin Ultra (друга половина 2027) з HBM4e досягне 365 ТБ пам'яті в конфігурації NVL576. Потребує 48В живлення безпосередньо до чипа.
Вісім екзафлопс обчислювальної потужності звучить абстрактно, поки ви не усвідомите, що це дорівнює сукупній продуктивності кожного суперкомп'ютера зі списку TOP500 на Землі, стиснутій в інфраструктуру, яка вміщується в один ряд центру обробки даних.¹ Платформа NVIDIA Vera Rubin, запланована до розгортання у 2026 році, обіцяє саме таку можливість завдяки радикальним архітектурним досягненням, на тлі яких найпотужніші сучасні системи виглядають архаїчно. Організації, які планують інфраструктуру сьогодні, повинні враховувати системи, що споживатимуть до 600 кіловат на стійку та потребуватимуть технологій охолодження на межі комерційних можливостей.
Платформа названа на честь астронома Віри Рубін, чиї спостереження темної матерії здійснили революцію в космології — гідна данина архітектурі, яка обіцяє революціонізувати можливості ШІ.² Дженсен Хуанг розкрив специфікації на GTC 2025: чипи, виготовлені за 3-нанометровим техпроцесом TSMC (N3P), пам'ять HBM4, що забезпечує пропускну здатність до 13 терабайт на секунду, та NVLink шостого покоління з підтримкою мультитерабайтної комунікації GPU-GPU.³ Кожне число представляє подвоєння або потроєння поточних можливостей, вимагаючи еволюції інфраструктури, яка кидає виклик фундаментальним припущенням щодо проєктування центрів обробки даних.
Великі хмарні провайдери вже резервують потужності для розгортання Vera Rubin, попри невизначеність щодо остаточних специфікацій. Microsoft виділила 15 мільярдів доларів на інфраструктуру для підтримки платформ наступного покоління, з об'єктами, розрахованими на щільність 500 кВт на стійку.⁴ Amazon Web Services будує нові регіони спеціально для обчислень надвисокої щільності, з електропідстанціями, що подають 500 мегават на окремі об'єкти.⁵ Гонка озброєнь в інфраструктурі розкриває сувору реальність: організації, не готові до вимог Vera Rubin, опиняться повністю відрізаними від передових можливостей ШІ.
Архітектурний стрибок переосмислює масштаб обчислень
Архітектура Vera Rubin відмовляється від поступового вдосконалення на користь революційного редизайну. Кожен чип містить приблизно 500 мільярдів транзисторів, майже втричі більше за 208 мільярдів у Blackwell, що стало можливим завдяки безпрецедентній щільності техпроцесу TSMC N2.⁶ Транзисторний бюджет дозволяє розмістити 20 000 тензорних ядер на чип, кожне з яких здатне виконувати операції змішаної точності від INT4 до FP64. Філософія проєктування зміщується від прискорення загального призначення до оптимізації під ШІ, з 80% площі кристала, виділеної під блоки матричного множення.
Архітектура пам'яті долає всі попередні межі завдяки інтеграції HBM4, що забезпечує пропускну здатність до 13 ТБ/с на чип. Дорожня карта Samsung щодо HBM4 демонструє стеки з 2048-бітними інтерфейсами, що працюють на високих швидкостях, при цьому повна платформа NVL144 досягає 75 ТБ швидкої пам'яті.⁷ Кожен GPU Rubin забезпечує ємність пам'яті HBM4 288 ГБ, достатню для обслуговування моделей з 400 мільярдами параметрів з пам'яті одного GPU. Сама підсистема пам'яті споживає значну потужність, вимагаючи передового охолодження лише для термічного управління DRAM. Rubin Ultra, що з'явиться в другій половині 2027 року, використовуватиме пам'ять HBM4e з ємністю до 365 ТБ у конфігурації NVL576.
Еволюція міжз'єднань забезпечує справжні розподілені обчислення безпрецедентного масштабу. NVLink шостого покоління підтримує 200 ліній по 25 Гбіт/с кожна, забезпечуючи двонаправлену пропускну здатність 5 ТБ/с між GPU.⁸ Ця пропускна здатність дозволяє 256 GPU функціонувати як єдиний обчислювальний блок з однорідною затримкою доступу до пам'яті менше 500 наносекунд. Традиційні втрати розподілених обчислень зникають, оскільки система працює більше як один масивний процесор, а не як кластер.
Чиплетна архітектура стає ключем до виробничої життєздатності. Монолітні кристали, що наближаються до 1000 мм², стикаються з катастрофічними проблемами виходу придатних, при цьому рівень дефектів робить виробництво економічно неможливим. Vera Rubin, ймовірно, використовує 3D-укладання чиплетів з обчислювальними кристалами, виготовленими за техпроцесом N2, та кристалами введення-виведення на зрілих процесах N4.⁹ Передове корпусування з використанням технології TSMC SoIC забезпечує 50 000 з'єднань на квадратний міліметр між чиплетами, підтримуючи цілісність сигналу на мультитерабітних швидкостях.¹⁰
Архітектура живлення потребує повного переосмислення при споживанні чипа 2000 Вт. Традиційне перетворення напруги 12В генерує неприйнятні втрати при таких рівнях струму. Vera Rubin реалізує 48В живлення безпосередньо до чипа з регулюванням напруги на корпусі.¹¹ Факторизована архітектура живлення Vicor демонструє 98% ефективності при навантаженнях 2000 Вт, але вимагає рідинного охолодження для самих компонентів системи живлення.¹² Система живлення стає такою ж складною, як і обчислювальна архітектура, яку вона підтримує.
Вимоги до інфраструктури перевищують поточні можливості
Вимоги до електроживлення для розгортання Vera Rubin руйнують традиційні припущення щодо проєктування центрів обробки даних. Одна стійка може споживати до 600 кВт безперервно, що еквівалентно майже 500 американським будинкам.¹³ Щільність потужності досягає понад 700 кВт на квадратний метр, що в 10 разів перевищує поточні високощільні розгортання. Об'єкти потребують виділених середньовольтних ліній 13,8 кВ з власними підстанціями, що забезпечують розподіл 4160 В. Електрична інфраструктура для розгортання на 100 стійок коштує 100 мільйонів доларів без урахування обчислювального обладнання.
Охолодження 500 кВт на стійку виходить за межі поточних можливостей рідинного охолодження на невідому територію. Тепловий потік на рівні чипа перевищує 500 Вт/см², наближаючись до теплової щільності камер згоряння ракетних двигунів.¹⁴ Двофазне рідинне охолодження стає обов'язковим, з використанням інженерних рідин, що кипять при точно контрольованих температурах. Рідини нового покоління 3M Novec справляються з 1000 Вт/см² у лабораторних демонстраціях, але вимагають бездоганних умов середовища, які важко підтримувати в промислових центрах обробки даних.¹⁵
Охолодження безпосередньо чипа еволюціонує в мікроканальні архітектури з елементами, меншими за людську волосину. Дослідження IBM показують, що кремнієві мікроканали шириною 50 мікрометрів відводять 1 кВт/см² при підвищенні температури на 5°C.¹⁶ Виробництво цих рішень охолодження вимагає методів напівпровідникового виробництва, роблячи охолоджувачі такими ж складними, як чипи, які вони охолоджують. Кожна холодна пластина коштує 10 000-15 000 доларів і потребує щоквартального обслуговування для запобігання накопиченню мінералів, що погіршує продуктивність.
Проєктування об'єктів відмовляється від традиційних фальшпідлог на користь структурних плит, що витримують навантаження 2000 кг/м². Розподіл рідини вимагає труб діаметром 30 см, що подають 4000 літрів на хвилину до кожного ряду. Системи утримання витоків повинні справлятися з катастрофічними відмовами, які можуть вивільнити 20 000 літрів охолоджувача за секунди. Вторинне утримання подвоює витрати на будівництво об'єкта, але запобігає екологічним катастрофам, які призвели б до закриття регуляторами.
Мережева інфраструктура масштабується пропорційно обчислювальній потужності. Кожна система Vera Rubin потребує 16 портів 800GbE для зовнішнього підключення, що в сумі становить 12,8 Тбіт/с на систему.¹⁷ Оптична комутація стає обов'язковою, оскільки мідні кабелі не можуть підтримувати необхідну пропускну здатність на відстанях центру обробки даних. Фотонні комутатори від компаній на кшталт Lightmatter забезпечують наносекундні часи комутації з нульовим споживанням енергії для самої комутаційної матриці.¹⁸ Тільки мережа представляє інвестицію в 50 мільйонів доларів для помірного розгортання.
Програмна екосистема потребує фундаментальної еволюції
Моделі програмування, розроблені для дискретних GPU, катастрофічно провалюються на уніфікованій архітектурі Vera Rubin. Традиційні фреймворки розподіляють роботу між пристроями, припускаючи незалежні простори пам'яті та явну синхронізацію. Когерентні 256-GPU системи Vera Rubin працюють як єдині логічні пристрої з уніфікованою віртуальною пам'яттю, що охоплює 36 ТБ. Розробники повинні переосмислити стратегії паралелізації, розглядаючи платформу як масивну NUMA-систему, а не як розподілений кластер.
Дорожня карта NVIDIA CUDA 15.0 показує фундаментальні зміни API для підтримки екзамасштабних обчислень. Cooperative Groups розширюються для підтримки мільйонів потоків, що координуються по всій системі.¹⁹ Unified Memory еволюціонує для обробки петабайтних виділень з автоматичною міграцією сторінок між обчислювальними та сховищними рівнями. Модель програмування абстрагує складність апаратного забезпечення, але вимагає глибокого розуміння ієрархії пам'яті для досягнення оптимальної продуктивності.
Технологія компіляторів стає критичною для вилучення можливостей платформи. Графові проміжні представлення захоплюють структуру застосунку, забезпечуючи агресивні оптимізації по всій системі. MLIR (Multi-Level Intermediate Representation) стає основою для компіляторів наступного покоління, що оптимізують від високорівневих математичних операцій до окремих інструкцій тензорних ядер.²⁰ Час компіляції для великих моделей розтягується до годин, але згенерований код досягає 90% теоретичної пікової продуктивності.
Платформи оркестрації контейнерів потребують архітектурного перегляду для управління розгортаннями Vera Rubin. Абстракції Kubernetes руйнуються, коли окремі поди вимагають 256 GPU та бюджети потужності 500 кВт. З'являються нові оркестратори, що розуміють обмеження інфраструктури: доступність живлення, потужність охолодження, топологію мережі та домени відмов. Рішення з планування враховують тепловий стан та умови електромережі поряд із традиційною доступністю обчислень.
Інструменти налагодження та профілювання стикаються з надзвичайною складністю. Одна система Vera Rubin генерує 100 ГБ/с телеметрії продуктивності, вимагаючи виділеної інфраструктури лише для моніторингу.²¹ Традиційні профілювальники не можуть обробляти системи, де окремі запуски ядер залучають мільярди потоків. Аналіз на основі ШІ стає необхідним для виявлення вузьких місць продуктивності та можливостей оптимізації в потоці телеметрії. Розробники покладаються на машинне навчання для розуміння поведінки систем машинного навчання.
Економічні моделі кидають виклик інвестиційній логіці
Прогнозована ціна Vera Rubin у 10 мільйонів доларів за систему здається астрономічною, поки її не порівняти з наданими можливостями. Вісім екзафлопс дорівнює 1000 NVIDIA H100 GPU за сирою обчислювальною потужністю, але забезпечує в 10 разів кращу ефективну продуктивність завдяки архітектурній ефективності.²² Побудова еквівалентної потужності з поточною технологією коштувала б 40 мільйонів доларів та споживала б 5 МВт електроенергії. 4-кратна капітальна ефективність та 10-кратна енергоефективність трансформують розрахунки загальної вартості володіння.
Операційні витрати перевищують капітальні за термін служби системи. Споживання електроенергії на рівні 500 кВт коштує 400 000 доларів щорічно за промисловими тарифами. Охолодження додає ще 100 000 доларів. Об'єкти, обслуговування та експлуатація вносять 500 000 доларів щороку. Кожна система Vera Rubin коштує 1 мільйон доларів щорічно в експлуатації, що робить завантаження критичним для економічної життєздатності. Організації, що досягають 80% завантаження, амортизують витрати на більше обчислень, зменшуючи витрати на операцію на 60%.
Стратегії амортизації потребують переосмислення в умовах прискорення технологічної еволюції. Традиційна трирічна амортизація передбачає 33% щорічного зниження вартості, але системи Vera Rubin можуть зберігати вартість довше завдяки програмній оптимізації. Ранні GPU Volta з 2017 року залишаються економічно життєздатними для специфічних навантажень сім років потому.²³ Масивний запас потужності Vera Rubin передбачає п'ятирічний термін корисного використання, що суттєво покращує інвестиційну віддачу.
Моделі доходів повинні еволюціонувати для підтримки інвестицій в інфраструктуру. Навчання моделей класу GPT-5 на інфраструктурі Vera Rubin може коштувати 100 мільйонів доларів, але завершиться за тижні, а не місяці.²⁴ Премія за швидкість виправдовує витрати для організацій, де час виходу на ринок визначає успіх. Ціни API для моделей, навчених на Vera Rubin, повинні відображати витрати на інфраструктуру, залишаючись конкурентними з меншими моделями, навченими на старішому обладнанні.
Фінансові механізми адаптуються до масштабу інфраструктури. Традиційний лізинг обладнання не працює, коли окремі системи коштують 10 мільйонів доларів з невизначеною залишковою вартістю. З'являються нові моделі, що поєднують фінансування обладнання, енерг
[Контент скорочено для перекладу]