Дженсен Хуанг зробив оголошення, що перевернуло очікування галузі на CES 2026: платформа NVIDIA Rubin вийшла на повне виробництво. Не семплування. Не кваліфікація. Повне виробництво — з об'ємними поставками, націленими на другу половину 2026 року.
Час приголомшив аналітиків, які планували доступність Rubin на початок 2027 року. NVIDIA виконала агресивний 18-місячний цикл розробки від запуску Blackwell до виробництва Rubin, стиснувши те, що зазвичай займає 24-30 місяців у розробці напівпровідників.
Rubin представляє більше, ніж поступове оновлення GPU. Платформа представляє повну шестичипову архітектуру, розроблену для ери агентного ШІ — де робочі навантаження inference домінують, а вартість за токен визначає комерційну життєздатність. Кожен великий хмарний провайдер та лабораторія ШІ вже взяли на себе зобов'язання щодо розгортання.
GPU Rubin: 336 мільярдів транзисторів обчислювальної щільності
GPU Rubin виводить інженерію напівпровідників на нові межі. З 336 мільярдами транзисторів, виготовлених на процесі TSMC N3, Rubin майже подвоює кількість 208 мільярдів транзисторів Blackwell, зберігаючи при цьому подібні показники споживання енергії завдяки покращенням архітектурної ефективності.1
Основні специфікації
| Специфікація | Rubin | Blackwell | Покращення |
|---|---|---|---|
| Кількість транзисторів | 336B | 208B | 1.6x |
| Техпроцес | TSMC N3 | TSMC 4NP | 1 покоління |
| Ємність HBM | 288GB HBM4 | 192GB HBM3e | 1.5x |
| Пропускна здатність пам'яті | 22 TB/s | 8 TB/s | 2.75x |
| FP4 Inference | 50 PFLOPS | 20 PFLOPS | 2.5x |
| Інтерконект | NVLink 6 | NVLink 5 | 3.6 TB/s на GPU |
Підсистема пам'яті представляє найзначніший прогрес Rubin. Інтеграція HBM4 забезпечує ємність 288GB на GPU з пропускною здатністю 22 TB/s — уможливлюючи inference на моделях, що перевищують 1 трильйон параметрів, без штрафів затримки багатовузлового розподілу.2
NVLink 6 забезпечує двонаправлену пропускну здатність 3.6 TB/s на GPU, покращення на 50% порівняно з NVLink 5. Ця пропускна здатність інтерконекту виявляється критичною для архітектур mixture-of-experts, де рішення маршрутизації експертів повинні завершуватися протягом мікросекунд.3
Архітектурні інновації
Rubin представляє Transformer Engines четвертого покоління, оптимізовані для механізмів attention, що домінують у сучасних архітектурах ШІ. Ці рушії підтримують динамічне масштабування точності — автоматично вибираючи обчислення FP4, FP8 або FP16 на основі вимог шару без втручання програмного забезпечення.4
GPU включає спеціалізоване обладнання для speculative decoding, техніки, що прискорює авторегресивну генерацію шляхом прогнозування кількох токенів одночасно. NVIDIA заявляє про 3-4x прискорення inference для розмовних робочих навантажень ШІ, де рівень успіху speculative decoding перевищує 70%.5
Покращення когерентності пам'яті дозволяють спільне використання тензорів zero-copy між кластерами GPU. Попередні архітектури вимагали явних передач пам'яті між GPU під час розподіленого inference — Rubin усуває цей оверхед через домени когерентності, керовані апаратно, що охоплюють до 576 GPU.6
CPU Vera: спеціально створений для дата-центрів ШІ
Rubin розгортається разом із Vera, першим кастомним CPU NVIDIA, розробленим спеціально для інфраструктури ШІ. Vera відмовляється від універсальності обчислень загального призначення на користь оптимізованого переміщення даних та оркестрації для робочих навантажень ШІ.7
Специфікації Vera
| Специфікація | CPU Vera | Grace (попередній) |
|---|---|---|
| Архітектура | Кастомна ARM | ARM Neoverse V2 |
| Кількість ядер | 96 ядер | 72 ядра |
| Пам'ять | 512GB LPDDR6 | 480GB LPDDR5X |
| Пропускна здатність пам'яті | 800 GB/s | 546 GB/s |
| Інтерфейс NVLink | 1.8 TB/s | 900 GB/s |
| Лінії PCIe | 256 Gen6 | 128 Gen5 |
Інтерфейс NVLink Vera підключається безпосередньо до GPU Rubin на швидкості 1.8 TB/s — удвічі більше пропускної здатності Grace. Це тісне зв'язування дозволяє передачу даних CPU-GPU на швидкостях пам'яті, усуваючи вузьке місце PCIe, що переслідувало гетерогенні обчислення.8
CPU включає спеціалізовані рушії DMA для операцій checkpoint та restore. Навчання великих мовних моделей вимагає періодичних знімків стану для відмовостійкості — Vera виконує ці операції асинхронно без переривання обчислень GPU.9
Vera Rubin NVL72: референсний суперкомп'ютер
NVIDIA пакує Rubin та Vera у Vera Rubin NVL72 — систему масштабу стійки, що містить 72 GPU Rubin та 36 CPU Vera, що працюють як єдиний обчислювальний fabric.10
Специфікації системи
| Специфікація | Vera Rubin NVL72 | Blackwell NVL72 |
|---|---|---|
| GPU | 72x Rubin | 72x Blackwell |
| CPU | 36x Vera | 36x Grace |
| Загальна HBM | 20.7 TB | 13.8 TB |
| FP4 Inference | 3.6 EFLOPS | 1.4 EFLOPS |
| FP8 Training | 2.5 EFLOPS | 0.72 EFLOPS |
| Пропускна здатність NVLink | 259 TB/s | 130 TB/s |
| Потужність стійки | 120-130 kW | 120 kW |
Сукупна 20.7 TB пам'яті HBM4 дозволяє inference однієї системи для моделей з 10+ трильйонами параметрів без оверхеду паралелізму моделі. Попередні архітектури вимагали tensor parallel розподілу через кілька стійок — NVL72 консолідує це в одну систему.11
Заява про 10-кратне зниження вартості
Заголовна заява NVIDIA про 10-кратне зниження вартості inference порівняно з Blackwell вимагає ретельного вивчення. Розрахунок об'єднує кілька факторів:12
Покращення сирих обчислень: 2.57x більше FP4 FLOPS на систему
Ємність пам'яті: 1.5x більше HBM дозволяє більші розміри пакетів, покращуючи використання GPU з типових 60% до 85%+
Ефективність інтерконекту: NVLink 6 зменшує оверхед комунікації в tensor parallel inference на 40%
Speculative Decoding: Апаратне прискорення забезпечує покращення пропускної здатності 3-4x для розмовних навантажень
Енергоефективність: Продуктивність на ват покращується в 2.2x, знижуючи операційні витрати
Сукупний ефект наближається до 10x для оптимізованих робочих навантажень inference. Покращення вартості навчання скромніші — NVIDIA заявляє про покращення 3-4x для великомасштабного розподіленого навчання.13
Часова шкала виробництва та доступності
Розгортання виробництва NVIDIA відбувається за агресивним графіком, що кидає виклик традиційним часовим рамкам напівпровідників:
Віхи виробництва
| Віха | Дата |
|---|---|
| Інженерні зразки | Q3 2025 |
| Кваліфікація виробництва | Q4 2025 |
| Початок повного виробництва | Q1 2026 |
| Доступність у хмарі | H2 2026 |
| Широка доступність | Q4 2026 |
Хмарні провайдери отримують пріоритетний розподіл. AWS, Microsoft Azure, Google Cloud, Oracle Cloud та CoreWeave забезпечили початкову потужність — ймовірно споживаючи перші 6-9 місяців обсягу виробництва.14
Корпоративні клієнти стикаються з подовженими термінами поставки. NVIDIA історично виділяє 60-70% нового виробництва GPU гіперскейлерам протягом першого року, при цьому корпоративні та державні клієнти конкурують за залишкову потужність.15
Міркування щодо ланцюга поставок
Процес TSMC N3 створює обмеження потужності. Вузол також підтримує найновіші процесори Apple та серію MI400 AMD — створюючи конкуренцію за передову потужність wafer. NVIDIA забезпечила довгострокові угоди про потужність, але стеля виробництва ймовірно обмежує випуск 2026 року до 200,000-300,000 GPU Rubin.16
Постачання HBM4 представляє ще одне вузьке місце. SK Hynix та Samsung почали масове виробництво HBM4 у Q4 2025, але yield залишається нижчим за зрілі рівні HBM3e. Кожен GPU Rubin вимагає 288GB HBM4 — приблизно в 6 разів більше пам'яті на пристрій порівняно зі споживчими GPU.17
Вимоги до інфраструктури охолодження та живлення
Vera Rubin NVL72 вимагає 100% рідинного охолодження — конфігурації з повітряним охолодженням не існують. Дата-центри повинні розгорнути інфраструктуру рідинного охолодження direct-to-chip перед прийняттям систем Rubin.18
Специфікації охолодження
| Параметр | Вимога |
|---|---|
| Метод охолодження | Рідинне direct-to-chip |
| Температура охолоджувача | 15-25°C на вході |
| Швидкість потоку | 45-60 літрів/хвилину на стійку |
| Відведення тепла | 120-130 kW на стійку |
| Delta T | 10-15°C |
Перехід на рідинне охолодження представляє значні капітальні витрати для об'єктів, спроектованих навколо повітряного охолодження. Витрати на модернізацію варіюються від $500 до $1,500 за kW залежно від існуючої інфраструктури — додаючи $60,000-$195,000 за стійку Rubin лише для інфраструктури охолодження.19
Розподіл живлення
Системи Rubin підтримують нову архітектуру живлення NVIDIA 800V DC, відхід від стандарту розподілу 48V у попередніх проектах дата-центрів:20
| Архітектура | Ефективність | Розмір кабелю | Вартість встановлення |
|---|---|---|---|
| 48V DC | 96-97% | 4/0 AWG | Базова |
| 400V DC | 97-98% | 2 AWG | +10-15% |
| 800V DC | 98-99% | 6 AWG | +25-35% |
Розподіл вищої напруги зменшує втрати провідників та масу кабелю, компенсуючи премії за встановлення протягом 18-24 місяців для розгортань високої щільності. NVIDIA очікує, що 800V DC стане стандартом для дата-центрів ШІ до 2028 року.21
Дорожня карта Rubin Ultra
Дженсен Хуанг анонсував Rubin Ultra, запланований на 2027 рік. Покращений варіант подвоює обчислювальну щільність, зберігаючи сумісність зі стійками NVL72:22
Специфікації Rubin Ultra (попередній перегляд)
| Специфікація | Rubin Ultra | Rubin |
|---|---|---|
| Кількість транзисторів | ~500B | 336B |
| Ємність HBM | 384GB HBM4E | 288GB HBM4 |
| Пропускна здатність пам'яті | 32 TB/s | 22 TB/s |
| Потужність стійки | 600 kW | 120-130 kW |
Вимога потужності стійки 600 kW потребує теплообмінників rear-door або виділених блоків розподілу охолодження — інфраструктура, яку більшість існуючих об'єктів не може підтримати. Rubin Ultra ефективно вимагає спеціально побудованих дата-центрів, спроектованих для середньої щільності 80+ kW на шафу.23
Конкурентне позиціонування
Rubin виходить на виробництво, коли AMD та Intel прискорюють свої програми прискорювачів ШІ. Конкурентний ландшафт драматично змінився з 95%+ частки ринку NVIDIA у 2023 році.
Порівняння з AMD MI455X
MI455X від AMD, оголошений разом з Rubin на CES 2026, націлений на той самий high-end ринок інфраструктури ШІ:24
| Специфікація | NVIDIA Rubin | AMD MI455X |
|---|---|---|
| Кількість транзисторів | 336B | 320B |
| Процес | TSMC N3 | TSMC N3/N2 гібрид |
| Ємність HBM | 288GB HBM4 | 432GB HBM4 |
| Пропускна здатність пам'яті | 22 TB/s | 24 TB/s |
| FP4 Inference | 50 PFLOPS | 40 PFLOPS |
| Доступність | H2 2026 | H2 2026 |
Перевага ємності пам'яті AMD — 432GB проти 288GB — дозволяє inference на більших моделях без tensor parallelism. NVIDIA відповідає кращою пропускною здатністю інтерконекту через NVLink 6, аналогу якому AMD не має.25
Lock-in програмної екосистеми
Конкурентний рів NVIDIA простягається за межі кремнію. 18-річний розвиток екосистеми CUDA створив витрати на перехід, які сирі апаратні показники не можуть подолати:26
- Оптимізація фреймворків: Команди PyTorch та TensorFlow пріоритезують оптимізацію CUDA
- Глибина бібліотек: cuDNN, cuBLAS, TensorRT пропонують тисячі оптимізованих ядер
- Знайомство розробників: Приблизно 4 мільйони розробників CUDA у всьому світі
- Корпоративна підтримка: Комплексний корпоративний програмний стек
ROCm від AMD суттєво скоротив розрив, але програмна перевага NVIDIA зберігається у виробничих розгортаннях, де надійність переважає пікову продуктивність.27
Зобов'язання клієнтів
Кожен великий клієнт інфраструктури ШІ взяв на себе зобов'язання щодо розгортання Rubin:
Хмарні провайдери
| Провайдер | Зобов'язання | Часова шкала |
|---|---|---|
| AWS | Багаторічна угода про потужність | Запуск H2 2026 |
| Microsoft Azure | Основна інфраструктура ШІ | Q4 2026 |
| Google Cloud | Подвійна стратегія TPU + Rubin | H2 2026 |
| Oracle Cloud | Розширене партнерство | Q3 2026 |
| CoreWeave | GPU-хмара першопрохідця | H2 2026 |
Лабораторії ШІ
| Організація | Варіант використання |
|---|---|
| OpenAI | Навчання та inference GPT-5+ |
| Anthropic | Розробка моделі Claude |
| Meta | Llama та виробничий inference |
| xAI | Інфраструктура навчання Grok |
| Google DeepMind | Розробка Gemini |
Всеосяжний список клієнтів усуває невизначеність попиту — NVIDIA продасть кожен GPU Rubin, який зможе виготовити до 2027 року.28
Наслідки для інфраструктури дата-центрів
Розгортання Rubin вимагає інвестицій в інфраструктуру, що виходять далеко за межі закупівлі GPU:
Контрольний список інфраструктури
| Компонент | Вимога | Час підготовки |
|---|---|---|
| Рідинне охолодження | Direct-to-chip, 120+ kW/стійка | 6-12 місяців |
| Розподіл живлення | Рекомендовано 800V DC | 9-18 місяців |
| Електрична потужність | 130 kW на стійку | Варіюється |
| Мережа | 400G/800G InfiniBand або Ethernet | 3-6 місяців |
| Фізичний простір | Стійки високої щільності 42U+ | Залежить від об'єкта |
Організації, що планують розгортання Rubin, повинні негайно розпочати інфраструктурні проекти. 12-18 місячний графік будівництва для модернізації рідинного охолодження погано узгоджується з доступністю Rubin H2 2026 — об'єкти, що ще не в розробці, зіткнуться з затримками розгортання, що простягатимуться до 2027-2028 років.29
Загальна вартість володіння
Розрахунок TCO Rubin виявляє інфраструктурні витрати, що конкурують з витратами на GPU:
| Компонент | Діапазон витрат (система 72-GPU) |
|---|---|
| Система Vera Rubin NVL72 | $3-4 мільйони |
| Інфраструктура рідинного охолодження | $60,000-195,000 |
| Оновлення інфраструктури живлення | $100,000-250,000 |
| Мережа (800G InfiniBand) | $200,000-400,000 |
| Встановлення та інтеграція | $50,000-100,000 |
| Загальні початкові інвестиції | $3.4-5.0 мільйонів |
Щорічні операційні витрати суттєво додають до TCO:
| Операційні витрати | Щорічна оцінка |
|---|---|
| Електроенергія (130 kW @ $0.08/kWh) | $91,000 |
| Операції охолодження | $15,000-25,000 |
| Обслуговування та підтримка | $200,000-400,000 |
| Загальний щорічний OpEx | $306,000-516,000 |
10-кратне зниження вартості inference компенсує ці інвестиції для організацій з достатнім масштабом робочого навантаження — але вимагає використання GPU 70%+, щоб досягти рекламованої економіки.30
Наслідки для розвитку ШІ
Характеристики продуктивності Rubin переформатовують можливості розвитку ШІ:
Масштаб моделей
Сукупна 20.7 TB HBM у системах NVL72 дозволяє inference однієї системи для моделей з 10+ трильйонами параметрів. Ця можливість підтримує архітектури наступного покоління, що об'єднують кілька спеціалізованих експертів — моделі Mixture-of-Experts з 100+ експертами стають практичними.31
Економіка inference
10-кратне зниження вартості трансформує економіку ШІ. Послуги, що зараз є маржинальними при $0.01/1K токенів, стають прибутковими при $0.001/1K токенів. Ця цінова зміна дозволяє інтеграцію ШІ у високообсягові застосування з низькою маржею, які раніше були економічно нерентабельними:32
- Аналіз відео в реальному часі
- Системи безперервного моніторингу
- Високочастотні торгові сигнали
- Генерація персоналізованого контенту в масштабі
Ефективність навчання
Покращення вартості навчання, хоча й менш драматичні, ніж inference, все ще суттєво прискорюють розвиток ШІ. Модель, що вимагає $100 мільйонів обчислень Blackwell, може коштувати $25-33 мільйони на Rubin — дозволяючи більше експериментальних ітерацій у межах фіксованих дослідницьких бюджетів.33
Що це означає для операторів дата-центрів
Виробництво Rubin представляє точку перелому для стратегії інфраструктури ШІ:
Дійте зараз щодо інфраструктури: Рідинне охолодження та оновлення живлення вимагають 12-18 місячного часу підготовки. Організації, що чекають доступності Rubin перед початком інфраструктурних проектів, зіткнуться з затримками розгортання, що простягатимуться до 2027-2028 років.
Забезпечте потужність завчасно: Гіперскейлери споживатимуть початкові обсяги виробництва. Корпоративні клієнти повинні негайно встановити закупівельні відносини та резервування потужності.
Плануйте щільність: Системи Rubin вимагають мінімум 120+ kW на стійку. Об'єкти, спроектовані навколо середньої щільності 10-20 kW, не можуть вмістити робочі навантаження ШІ без фундаментальної перебудови.
Оцініть загальну економіку: Сира вартість GPU становить лише 60-70% витрат на розгортання. Інфраструктурні інвестиції та операційні витрати суттєво впливають на фактичний TCO.
Організації, що визнають інфраструктурні обмеження як зв'язуюче обмеження — а не доступність GPU — захоплять конкурентну перевагу в розгортанні ШІ. Оголошення про виробництво Rubin прискорює часові рамки по всій галузі.
Ті, хто підготувався до цього моменту, готові до розгортання. Ті, хто ні, стикаються з тверезою реальністю: інфраструктурний розрив не можна подолати за місяці.
Introl спеціалізується на інфраструктурі дата-центрів для робочих навантажень ШІ, включаючи розгортання рідинного охолодження, розподіл живлення високої щільності та інтеграцію GPU-кластерів. Наші 550 польових інженерів підтримують розгортання в 257 глобальних локаціях. Зв'яжіться з нами, щоб обговорити ваші вимоги до інфраструктури Rubin.
Посилання
-
NVIDIA. "NVIDIA Rubin Platform Architecture." CES 2026 Technical Presentation. Січень 2026. ↩
-
NVIDIA Blog. "Next-Generation AI Infrastructure: Rubin and Vera." Січень 2026. https://blogs.nvidia.com/blog/2026-ces-special-presentation/ ↩
-
NVIDIA. "NVLink 6 Interconnect Specification." Technical Documentation. Січень 2026. ↩
-
NVIDIA. "Transformer Engine 4.0 Architecture." Developer Documentation. Січень 2026. ↩
-
NVIDIA. "Speculative Decoding Hardware Acceleration." CES 2026 Technical Deep Dive. Січень 2026. ↩
-
NVIDIA. "Memory Coherency in Rubin Systems." Technical White Paper. Січень 2026. ↩
-
NVIDIA. "Vera CPU Architecture Overview." CES 2026 Technical Presentation. Січень 2026. ↩
-
NVIDIA. "CPU-GPU Integration in Vera Rubin Systems." Technical Documentation. Січень 2026. ↩
-
NVIDIA. "Checkpoint and Restore Optimization." Developer Documentation. Січень 2026. ↩
-
NVIDIA Blog. "Vera Rubin NVL72 System Architecture." Січень 2026. https://blogs.nvidia.com/blog/2026-ces-special-presentation/ ↩
-
NVIDIA. "NVL72 Memory Subsystem Specifications." Technical Documentation. Січень 2026. ↩
-
NVIDIA. "Inference Cost Analysis: Rubin vs Blackwell." CES 2026 Presentation. Січень 2026. ↩
-
NVIDIA. "Training Performance Scaling in Rubin Systems." Technical White Paper. Січень 2026. ↩
-
Reuters. "Cloud Providers Secure NVIDIA Rubin Capacity." Січень 2026. ↩
-
SemiAnalysis. "NVIDIA Allocation Patterns and Customer Prioritization." Грудень 2025. ↩
-
DigiTimes. "TSMC N3 Capacity Allocation for 2026." Січень 2026. ↩
-
TrendForce. "HBM4 Production Status and Yield Analysis." Січень 2026. ↩
-
NVIDIA. "Vera Rubin NVL72 Cooling Requirements." Technical Specifications. Січень 2026. ↩
-
Uptime Institute. "Liquid Cooling Retrofit Cost Analysis." Грудень 2025. ↩
-
NVIDIA. "800V DC Power Architecture for AI Data Centers." Technical White Paper. Січень 2026. ↩
-
Schneider Electric. "High-Voltage DC Distribution Economics." Industry Report. Листопад 2025. ↩
-
NVIDIA. "Rubin Ultra Preview." CES 2026 Keynote. Січень 2026. ↩
-
Data Center Dynamics. "Infrastructure Requirements for Next-Gen AI Systems." Січень 2026. ↩
-
AMD. "MI455X Architecture Overview." CES 2026 Presentation. Січень 2026. ↩
-
Tom's Hardware. "NVIDIA Rubin vs AMD MI455X: Technical Comparison." Січень 2026. ↩
-
NVIDIA. "CUDA Ecosystem Overview." Developer Resources. 2026. ↩
-
Phoronix. "ROCm 7.0 Performance Analysis." Січень 2026. ↩
-
Bloomberg. "AI Infrastructure Demand Exceeds Supply Through 2027." Січень 2026. ↩
-
JLL. "Data Center Construction Timelines and AI Readiness." Industry Report. Грудень 2025. ↩
-
McKinsey & Company. "AI Infrastructure Total Cost of Ownership Analysis." Січень 2026. ↩
-
Google Research. "Scaling Mixture-of-Experts Architectures." Грудень 2025. ↩
-
Andreessen Horowitz. "AI Inference Economics at Scale." Січень 2026. ↩
-
Epoch AI. "Training Cost Trends in Foundation Models." Січень 2026. ↩