NVIDIA Rubin виходить на повне виробництво: GPU на 336 мільярдів транзисторів, що перетворює інфраструктуру ШІ

Дженсен Хуанг приголомшив CES 2026 новиною про те, що платформа наступного покоління NVIDIA Rubin вже вийшла на повне виробництво — на місяці раніше очікуваного. Шестичипова архітектура обіцяє 10-кратне зниження вартості inference та сигналізує про фундаментальну зміну в економіці дата-центрів.

Blake Crosley

Jan 08, 2026 12 min read Disclaimer

NVIDIA Rubin виходить на повне виробництво: GPU на 336 мільярдів транзисторів, що перетворює інфраструктуру ШІ

Дженсен Хуанг зробив оголошення, що перевернуло очікування галузі на CES 2026: платформа NVIDIA Rubin вийшла на повне виробництво. Не семплування. Не кваліфікація. Повне виробництво — з об'ємними поставками, націленими на другу половину 2026 року.

Час приголомшив аналітиків, які планували доступність Rubin на початок 2027 року. NVIDIA виконала агресивний 18-місячний цикл розробки від запуску Blackwell до виробництва Rubin, стиснувши те, що зазвичай займає 24-30 місяців у розробці напівпровідників.

Rubin представляє більше, ніж поступове оновлення GPU. Платформа представляє повну шестичипову архітектуру, розроблену для ери агентного ШІ — де робочі навантаження inference домінують, а вартість за токен визначає комерційну життєздатність. Кожен великий хмарний провайдер та лабораторія ШІ вже взяли на себе зобов'язання щодо розгортання.

GPU Rubin: 336 мільярдів транзисторів обчислювальної щільності

GPU Rubin виводить інженерію напівпровідників на нові межі. З 336 мільярдами транзисторів, виготовлених на процесі TSMC N3, Rubin майже подвоює кількість 208 мільярдів транзисторів Blackwell, зберігаючи при цьому подібні показники споживання енергії завдяки покращенням архітектурної ефективності.¹

Основні специфікації

Специфікація	Rubin	Blackwell	Покращення
Кількість транзисторів	336B	208B	1.6x
Техпроцес	TSMC N3	TSMC 4NP	1 покоління
Ємність HBM	288GB HBM4	192GB HBM3e	1.5x
Пропускна здатність пам'яті	22 TB/s	8 TB/s	2.75x
FP4 Inference	50 PFLOPS	20 PFLOPS	2.5x
Інтерконект	NVLink 6	NVLink 5	3.6 TB/s на GPU

Підсистема пам'яті представляє найзначніший прогрес Rubin. Інтеграція HBM4 забезпечує ємність 288GB на GPU з пропускною здатністю 22 TB/s — уможливлюючи inference на моделях, що перевищують 1 трильйон параметрів, без штрафів затримки багатовузлового розподілу.²

NVLink 6 забезпечує двонаправлену пропускну здатність 3.6 TB/s на GPU, покращення на 50% порівняно з NVLink 5. Ця пропускна здатність інтерконекту виявляється критичною для архітектур mixture-of-experts, де рішення маршрутизації експертів повинні завершуватися протягом мікросекунд.³

Архітектурні інновації

Rubin представляє Transformer Engines четвертого покоління, оптимізовані для механізмів attention, що домінують у сучасних архітектурах ШІ. Ці рушії підтримують динамічне масштабування точності — автоматично вибираючи обчислення FP4, FP8 або FP16 на основі вимог шару без втручання програмного забезпечення.⁴

GPU включає спеціалізоване обладнання для speculative decoding, техніки, що прискорює авторегресивну генерацію шляхом прогнозування кількох токенів одночасно. NVIDIA заявляє про 3-4x прискорення inference для розмовних робочих навантажень ШІ, де рівень успіху speculative decoding перевищує 70%.⁵

Покращення когерентності пам'яті дозволяють спільне використання тензорів zero-copy між кластерами GPU. Попередні архітектури вимагали явних передач пам'яті між GPU під час розподіленого inference — Rubin усуває цей оверхед через домени когерентності, керовані апаратно, що охоплюють до 576 GPU.⁶

CPU Vera: спеціально створений для дата-центрів ШІ

Rubin розгортається разом із Vera, першим кастомним CPU NVIDIA, розробленим спеціально для інфраструктури ШІ. Vera відмовляється від універсальності обчислень загального призначення на користь оптимізованого переміщення даних та оркестрації для робочих навантажень ШІ.⁷

Специфікації Vera

Специфікація	CPU Vera	Grace (попередній)
Архітектура	Кастомна ARM	ARM Neoverse V2
Кількість ядер	96 ядер	72 ядра
Пам'ять	512GB LPDDR6	480GB LPDDR5X
Пропускна здатність пам'яті	800 GB/s	546 GB/s
Інтерфейс NVLink	1.8 TB/s	900 GB/s
Лінії PCIe	256 Gen6	128 Gen5

Інтерфейс NVLink Vera підключається безпосередньо до GPU Rubin на швидкості 1.8 TB/s — удвічі більше пропускної здатності Grace. Це тісне зв'язування дозволяє передачу даних CPU-GPU на швидкостях пам'яті, усуваючи вузьке місце PCIe, що переслідувало гетерогенні обчислення.⁸

CPU включає спеціалізовані рушії DMA для операцій checkpoint та restore. Навчання великих мовних моделей вимагає періодичних знімків стану для відмовостійкості — Vera виконує ці операції асинхронно без переривання обчислень GPU.⁹

Vera Rubin NVL72: референсний суперкомп'ютер

NVIDIA пакує Rubin та Vera у Vera Rubin NVL72 — систему масштабу стійки, що містить 72 GPU Rubin та 36 CPU Vera, що працюють як єдиний обчислювальний fabric.¹⁰

Специфікації системи

Специфікація	Vera Rubin NVL72	Blackwell NVL72
GPU	72x Rubin	72x Blackwell
CPU	36x Vera	36x Grace
Загальна HBM	20.7 TB	13.8 TB
FP4 Inference	3.6 EFLOPS	1.4 EFLOPS
FP8 Training	2.5 EFLOPS	0.72 EFLOPS
Пропускна здатність NVLink	259 TB/s	130 TB/s
Потужність стійки	120-130 kW	120 kW

Сукупна 20.7 TB пам'яті HBM4 дозволяє inference однієї системи для моделей з 10+ трильйонами параметрів без оверхеду паралелізму моделі. Попередні архітектури вимагали tensor parallel розподілу через кілька стійок — NVL72 консолідує це в одну систему.¹¹

Заява про 10-кратне зниження вартості

Заголовна заява NVIDIA про 10-кратне зниження вартості inference порівняно з Blackwell вимагає ретельного вивчення. Розрахунок об'єднує кілька факторів:¹²

Покращення сирих обчислень: 2.57x більше FP4 FLOPS на систему

Ємність пам'яті: 1.5x більше HBM дозволяє більші розміри пакетів, покращуючи використання GPU з типових 60% до 85%+

Ефективність інтерконекту: NVLink 6 зменшує оверхед комунікації в tensor parallel inference на 40%

Speculative Decoding: Апаратне прискорення забезпечує покращення пропускної здатності 3-4x для розмовних навантажень

Енергоефективність: Продуктивність на ват покращується в 2.2x, знижуючи операційні витрати

Сукупний ефект наближається до 10x для оптимізованих робочих навантажень inference. Покращення вартості навчання скромніші — NVIDIA заявляє про покращення 3-4x для великомасштабного розподіленого навчання.¹³

Часова шкала виробництва та доступності

Розгортання виробництва NVIDIA відбувається за агресивним графіком, що кидає виклик традиційним часовим рамкам напівпровідників:

Віхи виробництва

Віха	Дата
Інженерні зразки	Q3 2025
Кваліфікація виробництва	Q4 2025
Початок повного виробництва	Q1 2026
Доступність у хмарі	H2 2026
Широка доступність	Q4 2026

Хмарні провайдери отримують пріоритетний розподіл. AWS, Microsoft Azure, Google Cloud, Oracle Cloud та CoreWeave забезпечили початкову потужність — ймовірно споживаючи перші 6-9 місяців обсягу виробництва.¹⁴

Корпоративні клієнти стикаються з подовженими термінами поставки. NVIDIA історично виділяє 60-70% нового виробництва GPU гіперскейлерам протягом першого року, при цьому корпоративні та державні клієнти конкурують за залишкову потужність.¹⁵

Міркування щодо ланцюга поставок

Процес TSMC N3 створює обмеження потужності. Вузол також підтримує найновіші процесори Apple та серію MI400 AMD — створюючи конкуренцію за передову потужність wafer. NVIDIA забезпечила довгострокові угоди про потужність, але стеля виробництва ймовірно обмежує випуск 2026 року до 200,000-300,000 GPU Rubin.¹⁶

Постачання HBM4 представляє ще одне вузьке місце. SK Hynix та Samsung почали масове виробництво HBM4 у Q4 2025, але yield залишається нижчим за зрілі рівні HBM3e. Кожен GPU Rubin вимагає 288GB HBM4 — приблизно в 6 разів більше пам'яті на пристрій порівняно зі споживчими GPU.¹⁷

Вимоги до інфраструктури охолодження та живлення

Vera Rubin NVL72 вимагає 100% рідинного охолодження — конфігурації з повітряним охолодженням не існують. Дата-центри повинні розгорнути інфраструктуру рідинного охолодження direct-to-chip перед прийняттям систем Rubin.¹⁸

Специфікації охолодження

Параметр	Вимога
Метод охолодження	Рідинне direct-to-chip
Температура охолоджувача	15-25°C на вході
Швидкість потоку	45-60 літрів/хвилину на стійку
Відведення тепла	120-130 kW на стійку
Delta T	10-15°C

Перехід на рідинне охолодження представляє значні капітальні витрати для об'єктів, спроектованих навколо повітряного охолодження. Витрати на модернізацію варіюються від $500 до $1,500 за kW залежно від існуючої інфраструктури — додаючи $60,000-$195,000 за стійку Rubin лише для інфраструктури охолодження.¹⁹

Розподіл живлення

Системи Rubin підтримують нову архітектуру живлення NVIDIA 800V DC, відхід від стандарту розподілу 48V у попередніх проектах дата-центрів:²⁰

Архітектура	Ефективність	Розмір кабелю	Вартість встановлення
48V DC	96-97%	4/0 AWG	Базова
400V DC	97-98%	2 AWG	+10-15%
800V DC	98-99%	6 AWG	+25-35%

Розподіл вищої напруги зменшує втрати провідників та масу кабелю, компенсуючи премії за встановлення протягом 18-24 місяців для розгортань високої щільності. NVIDIA очікує, що 800V DC стане стандартом для дата-центрів ШІ до 2028 року.²¹

Дорожня карта Rubin Ultra

Дженсен Хуанг анонсував Rubin Ultra, запланований на 2027 рік. Покращений варіант подвоює обчислювальну щільність, зберігаючи сумісність зі стійками NVL72:²²

Специфікації Rubin Ultra (попередній перегляд)

Специфікація	Rubin Ultra	Rubin
Кількість транзисторів	~500B	336B
Ємність HBM	384GB HBM4E	288GB HBM4
Пропускна здатність пам'яті	32 TB/s	22 TB/s
Потужність стійки	600 kW	120-130 kW

Вимога потужності стійки 600 kW потребує теплообмінників rear-door або виділених блоків розподілу охолодження — інфраструктура, яку більшість існуючих об'єктів не може підтримати. Rubin Ultra ефективно вимагає спеціально побудованих дата-центрів, спроектованих для середньої щільності 80+ kW на шафу.²³

Конкурентне позиціонування

Rubin виходить на виробництво, коли AMD та Intel прискорюють свої програми прискорювачів ШІ. Конкурентний ландшафт драматично змінився з 95%+ частки ринку NVIDIA у 2023 році.

Порівняння з AMD MI455X

MI455X від AMD, оголошений разом з Rubin на CES 2026, націлений на той самий high-end ринок інфраструктури ШІ:²⁴

Специфікація	NVIDIA Rubin	AMD MI455X
Кількість транзисторів	336B	320B
Процес	TSMC N3	TSMC N3/N2 гібрид
Ємність HBM	288GB HBM4	432GB HBM4
Пропускна здатність пам'яті	22 TB/s	24 TB/s
FP4 Inference	50 PFLOPS	40 PFLOPS
Доступність	H2 2026	H2 2026

Перевага ємності пам'яті AMD — 432GB проти 288GB — дозволяє inference на більших моделях без tensor parallelism. NVIDIA відповідає кращою пропускною здатністю інтерконекту через NVLink 6, аналогу якому AMD не має.²⁵

Lock-in програмної екосистеми

Конкурентний рів NVIDIA простягається за межі кремнію. 18-річний розвиток екосистеми CUDA створив витрати на перехід, які сирі апаратні показники не можуть подолати:²⁶

Оптимізація фреймворків: Команди PyTorch та TensorFlow пріоритезують оптимізацію CUDA
Глибина бібліотек: cuDNN, cuBLAS, TensorRT пропонують тисячі оптимізованих ядер
Знайомство розробників: Приблизно 4 мільйони розробників CUDA у всьому світі
Корпоративна підтримка: Комплексний корпоративний програмний стек

ROCm від AMD суттєво скоротив розрив, але програмна перевага NVIDIA зберігається у виробничих розгортаннях, де надійність переважає пікову продуктивність.²⁷

Зобов'язання клієнтів

Кожен великий клієнт інфраструктури ШІ взяв на себе зобов'язання щодо розгортання Rubin:

Хмарні провайдери

Провайдер	Зобов'язання	Часова шкала
AWS	Багаторічна угода про потужність	Запуск H2 2026
Microsoft Azure	Основна інфраструктура ШІ	Q4 2026
Google Cloud	Подвійна стратегія TPU + Rubin	H2 2026
Oracle Cloud	Розширене партнерство	Q3 2026
CoreWeave	GPU-хмара першопрохідця	H2 2026

Лабораторії ШІ

Організація	Варіант використання
OpenAI	Навчання та inference GPT-5+
Anthropic	Розробка моделі Claude
Meta	Llama та виробничий inference
xAI	Інфраструктура навчання Grok
Google DeepMind	Розробка Gemini

Всеосяжний список клієнтів усуває невизначеність попиту — NVIDIA продасть кожен GPU Rubin, який зможе виготовити до 2027 року.²⁸

Наслідки для інфраструктури дата-центрів

Розгортання Rubin вимагає інвестицій в інфраструктуру, що виходять далеко за межі закупівлі GPU:

Контрольний список інфраструктури

Компонент	Вимога	Час підготовки
Рідинне охолодження	Direct-to-chip, 120+ kW/стійка	6-12 місяців
Розподіл живлення	Рекомендовано 800V DC	9-18 місяців
Електрична потужність	130 kW на стійку	Варіюється
Мережа	400G/800G InfiniBand або Ethernet	3-6 місяців
Фізичний простір	Стійки високої щільності 42U+	Залежить від об'єкта

Організації, що планують розгортання Rubin, повинні негайно розпочати інфраструктурні проекти. 12-18 місячний графік будівництва для модернізації рідинного охолодження погано узгоджується з доступністю Rubin H2 2026 — об'єкти, що ще не в розробці, зіткнуться з затримками розгортання, що простягатимуться до 2027-2028 років.²⁹

Загальна вартість володіння

Розрахунок TCO Rubin виявляє інфраструктурні витрати, що конкурують з витратами на GPU:

Компонент	Діапазон витрат (система 72-GPU)
Система Vera Rubin NVL72	$3-4 мільйони
Інфраструктура рідинного охолодження	$60,000-195,000
Оновлення інфраструктури живлення	$100,000-250,000
Мережа (800G InfiniBand)	$200,000-400,000
Встановлення та інтеграція	$50,000-100,000
Загальні початкові інвестиції	$3.4-5.0 мільйонів

Щорічні операційні витрати суттєво додають до TCO:

Операційні витрати	Щорічна оцінка
Електроенергія (130 kW @ $0.08/kWh)	$91,000
Операції охолодження	$15,000-25,000
Обслуговування та підтримка	$200,000-400,000
Загальний щорічний OpEx	$306,000-516,000

10-кратне зниження вартості inference компенсує ці інвестиції для організацій з достатнім масштабом робочого навантаження — але вимагає використання GPU 70%+, щоб досягти рекламованої економіки.³⁰

Наслідки для розвитку ШІ

Характеристики продуктивності Rubin переформатовують можливості розвитку ШІ:

Масштаб моделей

Сукупна 20.7 TB HBM у системах NVL72 дозволяє inference однієї системи для моделей з 10+ трильйонами параметрів. Ця можливість підтримує архітектури наступного покоління, що об'єднують кілька спеціалізованих експертів — моделі Mixture-of-Experts з 100+ експертами стають практичними.³¹

Економіка inference

10-кратне зниження вартості трансформує економіку ШІ. Послуги, що зараз є маржинальними при $0.01/1K токенів, стають прибутковими при $0.001/1K токенів. Ця цінова зміна дозволяє інтеграцію ШІ у високообсягові застосування з низькою маржею, які раніше були економічно нерентабельними:³²

Аналіз відео в реальному часі
Системи безперервного моніторингу
Високочастотні торгові сигнали
Генерація персоналізованого контенту в масштабі

Ефективність навчання

Покращення вартості навчання, хоча й менш драматичні, ніж inference, все ще суттєво прискорюють розвиток ШІ. Модель, що вимагає $100 мільйонів обчислень Blackwell, може коштувати $25-33 мільйони на Rubin — дозволяючи більше експериментальних ітерацій у межах фіксованих дослідницьких бюджетів.³³

Що це означає для операторів дата-центрів

Виробництво Rubin представляє точку перелому для стратегії інфраструктури ШІ:

Дійте зараз щодо інфраструктури: Рідинне охолодження та оновлення живлення вимагають 12-18 місячного часу підготовки. Організації, що чекають доступності Rubin перед початком інфраструктурних проектів, зіткнуться з затримками розгортання, що простягатимуться до 2027-2028 років.

Забезпечте потужність завчасно: Гіперскейлери споживатимуть початкові обсяги виробництва. Корпоративні клієнти повинні негайно встановити закупівельні відносини та резервування потужності.

Плануйте щільність: Системи Rubin вимагають мінімум 120+ kW на стійку. Об'єкти, спроектовані навколо середньої щільності 10-20 kW, не можуть вмістити робочі навантаження ШІ без фундаментальної перебудови.

Оцініть загальну економіку: Сира вартість GPU становить лише 60-70% витрат на розгортання. Інфраструктурні інвестиції та операційні витрати суттєво впливають на фактичний TCO.

Організації, що визнають інфраструктурні обмеження як зв'язуюче обмеження — а не доступність GPU — захоплять конкурентну перевагу в розгортанні ШІ. Оголошення про виробництво Rubin прискорює часові рамки по всій галузі.

Ті, хто підготувався до цього моменту, готові до розгортання. Ті, хто ні, стикаються з тверезою реальністю: інфраструктурний розрив не можна подолати за місяці.

Introl спеціалізується на інфраструктурі дата-центрів для робочих навантажень ШІ, включаючи розгортання рідинного охолодження, розподіл живлення високої щільності та інтеграцію GPU-кластерів. Наші 550 польових інженерів підтримують розгортання в 257 глобальних локаціях. Зв'яжіться з нами, щоб обговорити ваші вимоги до інфраструктури Rubin.

Посилання

NVIDIA. "NVIDIA Rubin Platform Architecture." CES 2026 Technical Presentation. Січень 2026. ↩
NVIDIA Blog. "Next-Generation AI Infrastructure: Rubin and Vera." Січень 2026. https://blogs.nvidia.com/blog/2026-ces-special-presentation/ ↩
NVIDIA. "NVLink 6 Interconnect Specification." Technical Documentation. Січень 2026. ↩
NVIDIA. "Transformer Engine 4.0 Architecture." Developer Documentation. Січень 2026. ↩
NVIDIA. "Speculative Decoding Hardware Acceleration." CES 2026 Technical Deep Dive. Січень 2026. ↩
NVIDIA. "Memory Coherency in Rubin Systems." Technical White Paper. Січень 2026. ↩
NVIDIA. "Vera CPU Architecture Overview." CES 2026 Technical Presentation. Січень 2026. ↩
NVIDIA. "CPU-GPU Integration in Vera Rubin Systems." Technical Documentation. Січень 2026. ↩
NVIDIA. "Checkpoint and Restore Optimization." Developer Documentation. Січень 2026. ↩
NVIDIA Blog. "Vera Rubin NVL72 System Architecture." Січень 2026. https://blogs.nvidia.com/blog/2026-ces-special-presentation/ ↩
NVIDIA. "NVL72 Memory Subsystem Specifications." Technical Documentation. Січень 2026. ↩
NVIDIA. "Inference Cost Analysis: Rubin vs Blackwell." CES 2026 Presentation. Січень 2026. ↩
NVIDIA. "Training Performance Scaling in Rubin Systems." Technical White Paper. Січень 2026. ↩
Reuters. "Cloud Providers Secure NVIDIA Rubin Capacity." Січень 2026. ↩
SemiAnalysis. "NVIDIA Allocation Patterns and Customer Prioritization." Грудень 2025. ↩
DigiTimes. "TSMC N3 Capacity Allocation for 2026." Січень 2026. ↩
TrendForce. "HBM4 Production Status and Yield Analysis." Січень 2026. ↩
NVIDIA. "Vera Rubin NVL72 Cooling Requirements." Technical Specifications. Січень 2026. ↩
Uptime Institute. "Liquid Cooling Retrofit Cost Analysis." Грудень 2025. ↩
NVIDIA. "800V DC Power Architecture for AI Data Centers." Technical White Paper. Січень 2026. ↩
Schneider Electric. "High-Voltage DC Distribution Economics." Industry Report. Листопад 2025. ↩
NVIDIA. "Rubin Ultra Preview." CES 2026 Keynote. Січень 2026. ↩
Data Center Dynamics. "Infrastructure Requirements for Next-Gen AI Systems." Січень 2026. ↩
AMD. "MI455X Architecture Overview." CES 2026 Presentation. Січень 2026. ↩
Tom's Hardware. "NVIDIA Rubin vs AMD MI455X: Technical Comparison." Січень 2026. ↩
NVIDIA. "CUDA Ecosystem Overview." Developer Resources. 2026. ↩
Phoronix. "ROCm 7.0 Performance Analysis." Січень 2026. ↩
Bloomberg. "AI Infrastructure Demand Exceeds Supply Through 2027." Січень 2026. ↩
JLL. "Data Center Construction Timelines and AI Readiness." Industry Report. Грудень 2025. ↩
McKinsey & Company. "AI Infrastructure Total Cost of Ownership Analysis." Січень 2026. ↩
Google Research. "Scaling Mixture-of-Experts Architectures." Грудень 2025. ↩
Andreessen Horowitz. "AI Inference Economics at Scale." Січень 2026. ↩
Epoch AI. "Training Cost Trends in Foundation Models." Січень 2026. ↩