Непохитна позиція NVIDIA: технічний аналіз того, чому захисний рів триматиметься до 2030 року
Оновлено 11 грудня 2025 року
Оновлення за грудень 2025: NVIDIA утримує 80% ринку AI-прискорювачів, валова маржа 78% попри конкурентів (DeepSeek, TPU, MI300X, експортний контроль). Акції падають на загрозах, потім відновлюються. Рів — не сама CUDA, а 19 років накопиченої екосистеми: cuDNN, cuBLAS, NCCL, оптимізація PyTorch/TensorFlow, інструментарій Nsight, документація. Витрати на перехід перевищують переваги в продуктивності практично для кожного клієнта.
Кожна загроза для NVIDIA розвивається за однаковим сценарієм. Аналітики визначають претендента — ефективність DeepSeek, TPU від Google, MI300X від AMD, моделі з відкритим кодом, експортний контроль — і прогнозують втрату частки ринку. Акції падають. Заголовки множаться. Потім загроза минає. Частка ринку залишається на рівні 80%.¹ Валова маржа тримається на 78%.² Гіперскейлери оголошують черговий раунд капітальних витрат, більшість з яких спрямовується на обладнання NVIDIA.³
Цей патерн повторюється, бо аналіз фокусується на хибній змінній. Спостерігачі порівнюють специфікації та роблять висновок, що конкуренти наздогнали або незабаром наздоженуть. Таке порівняння не враховує того, що робить позицію NVIDIA стійкою: витрати на перехід, які настільки перевищують переваги в продуктивності, що раціональні гравці залишаються, навіть коли альтернативи пропонують кращі характеристики.
NVIDIA збереже домінуючу частку ринку до 2030 року. Не тому, що конкуренти не створять краще обладнання за окремими показниками — в деяких випадках вони вже це зробили. Не тому, що підвищення ефективності не зменшить обчислювальні вимоги на модель — це вже сталося. NVIDIA перемагає, бо загальна вартість зміни платформи перевищує загальну вигоду від переходу практично для кожного клієнта на ринку. Щоб зрозуміти чому, потрібно зрозуміти, що насправді становить цей захисний рів.
Рів — не CUDA. Рів — це все, що побудовано на CUDA.
CUDA запустили у 2006 році. За цим пішли дев'ятнадцять років накопичених інвестицій. Ці інвестиції створили не просто програмний інтерфейс. Вони створили екосистему настільки всеохопну, що CUDA функціонує не як програмна платформа, а радше як фундаментальна інфраструктура розробки штучного інтелекту.
Базовий рівень охоплює модель паралельних обчислень та абстракції програмування. CUDA надає розробникам спосіб виражати паралельні обчислення, які ефективно виконуються на GPU-архітектурах. Цей базовий рівень працює добре, але теоретично його можна відтворити. ROCm від AMD надає подібні абстракції. oneAPI від Intel намагається зробити те саме.
Накопичені шари над базою створюють захисну перевагу.
Бібліотеки та примітиви: cuDNN для примітивів глибокого навчання. cuBLAS для лінійної алгебри. cuFFT для перетворень Фур'є. Thrust для паралельних алгоритмів. NCCL для комунікації між GPU. Кожна бібліотека представляє тисячі інженерних годин оптимізації для архітектур NVIDIA. Кожна оптимізація примножується з іншими. Модель, яка використовує cuDNN для згорток, cuBLAS для матричних операцій і NCCL для агрегації градієнтів, отримує оптимізації на кожному рівні стеку.⁴
Інтеграція з фреймворками: PyTorch, TensorFlow, JAX та всі інші основні фреймворки оптимізують насамперед і найглибше для GPU NVIDIA. Розробники фреймворків використовують обладнання NVIDIA. Тестові набори фреймворків виконуються на обладнанні NVIDIA. Баг-репорти надходять переважно від користувачів NVIDIA. Фреймворки працюють на іншому обладнанні; найкраще вони працюють на обладнанні NVIDIA.⁵
Інструментарій та налагодження: Nsight для профілювання та налагодження. CUDA-GDB для налагодження ядер. Compute Sanitizer для виявлення помилок. Інструменти, які допомагають розробникам писати правильний, ефективний код. Інструменти, яких не існує або які існують у незрілій формі для конкуруючих платформ.
Документація та знання: Дев'ятнадцять років блог-постів, навчальних посібників, наукових статей, відповідей на Stack Overflow та інституційних знань. Коли розробник стикається з проблемою CUDA, рішення існує десь. Коли розробник стикається з проблемою ROCm, він може бути першою людиною, яка її бачить.
М'язова пам'ять розробників: Аспіранти вивчають CUDA. Дослідницькі команди використовують CUDA. Інженери будують кар'єри навколо експертизи CUDA. Люди, які приймають технологічні рішення, роками накопичували специфічні для CUDA навички, які не переносяться на інші платформи.
Шари примножуються. Організація, яка переходить з NVIDIA на AMD, не просто змінює обладнання. Вона переписує ядра CUDA на HIP або ROCm. Вона замінює виклики cuDNN на виклики MIOpen. Вона перенавчає розробників. Вона відмовляється від Nsight і вивчає нові інструменти. Вона залишає позаду знання спільноти, які розв'язують езотеричні проблеми о другій ночі. Вона бере на себе ризик налагодження в екосистемі з меншим покриттям.
Кожен шар додає витрати на перехід. Витрати на перехід складаються мультиплікативно, а не адитивно. 20% перевага на папері стає 20% недоліком на практиці, коли її досягнення вимагає перебудови всього стеку з нуля.
Чому DeepSeek підтвердив рів, а не загрозив йому
Січнева 2025 року заява DeepSeek стверджувала, що передові AI-моделі можна тренувати за $6 мільйонів замість $600 мільйонів.⁶ Ринок інтерпретував це як екзистенційну загрозу: якщо моделі можна створювати дешево, попит на дороге обладнання впаде.
Ця інтерпретація помилилася на кількох рівнях, кожен з яких розкриває аспекти структурної сили NVIDIA.
Підвищення ефективності не зменшує попит; воно його розширює. Парадокс Джевонса — спостереження, що підвищення ефективності збільшує, а не зменшує загальне споживання ресурсів — застосовується безпосередньо. Коли витрати на тренування падають на 99%, адресний ринок розширюється більш ніж у 99 разів. Організації, які не могли собі дозволити передовий AI за $600 мільйонів, можуть дозволити його за $6 мільйонів. Сукупне споживання обчислень зростає, навіть коли споживання на модель зменшується.
Реакція Meta продемонструвала це негайно. Через кілька днів після оголошення DeepSeek, Meta підвищила прогноз витрат на AI у 2025 році до $60-65 мільярдів.⁷ Компанія побачила дешевше тренування як привід тренувати більше моделей для більшої кількості випадків використання, а не як привід зменшити інвестиції в інфраструктуру.
DeepSeek працював на обладнанні NVIDIA. Компанія використовувала чіпи NVIDIA з експортними обмеженнями, доповнені Ascend 910B від Huawei, який досягає 91% продуктивності порівнянного обладнання NVIDIA.⁸ Навіть компанія, яка нібито загрожує домінуванню NVIDIA, не змогла повністю вийти з екосистеми NVIDIA. Інновації ефективності, які розробив DeepSeek — mixture of experts, оптимізація attention, покращення навчального курикулуму — переносяться на обладнання NVIDIA. Організації, які хочуть ефективності DeepSeek, можуть досягти її, залишаючись на платформі NVIDIA.
Ринок правильно обробив сигнал протягом 48 годин. Одноденна втрата NVIDIA у $593 мільярди розвернулася, коли інституційні інвестори визнали надмірну реакцію.⁹ Акції відновилися на 8,9% наступного дня. Роздрібні інвестори продавали; інституції купували на падінні. Досвідчені учасники ринку зрозуміли те, що пропустили заголовки.
Промислові зобов'язання не похитнулися. Chevron і GE Vernova оголосили про плани побудувати спеціалізовані електростанції для дата-центрів після оголошення DeepSeek, а не до.¹⁰ Промислові компанії не зобов'язуються вкладати мільярди в інфраструктурні проєкти на основі бульбашок або технологій, які скоро застаріють. Вони будують на десятиліття сталого попиту.
Епізод з DeepSeek перевірив рів NVIDIA за найсприятливіших умов для ведмежого сценарію: драматичне підвищення ефективності, від конкурента, не обмеженого американським експортним регулюванням, оголошене на піку ринкової ейфорії. Рів витримав. Будь-який майбутній виклик працюватиме за менш сприятливих умов.
TPU: реальна конкуренція у визначеному сегменті, а не загроза платформі
Tensor Processing Units від Google представляють справжню конкуренцію. TPUv7 (Ironwood) забезпечує 4614 TFLOPS у BF16, 10-кратне покращення порівняно з TPUv5p.¹¹ Google завоював значних клієнтів: розгортання Anthropic перевищує 1 ГВт потужності TPU.¹² За повідомленнями, Meta планує використовувати TPU в дата-центрах до 2027 року.¹³ OpenAI, SSI та xAI обговорювали доступ до TPU з Google.¹⁴
Перемоги реальні. Вони не загрожують домінуючій позиції NVIDIA, оскільки відбуваються у специфічному ринковому сегменті з характеристиками, які не узагальнюються.
TPU оптимізовані для вартості інференсу в гіперскейлі. Витрати на інференс для виробничих AI-систем перевищують витрати на тренування у 15-118 разів.¹⁵ У гіперскейлі оптимізація вартості інференсу створює значну економічну цінність. TPU від Google забезпечують у 4,7 рази кращу продуктивність на долар і на 67% нижче енергоспоживання для цих навантажень.¹⁶ Для організацій, які виконують інференс у масовому масштабі з вартістю як основним обмеженням, TPU пропонують переконливу економіку.
TPU залишаються прив'язаними до екосистеми Google. Організації отримують доступ до TPU через Google Cloud або через прямі відносини з Google. Обладнання не постачається в дата-центри клієнтів. Програмна екосистема не існує незалежно від інфраструктури Google. Вибір TPU означає вибір Google як стратегічного партнера на фундаментальному рівні.
Це обмеження виключає більшу частину ринку. Підприємства, які розгортають AI у власних дата-центрах, не можуть використовувати TPU. Організації, які не бажають концентрувати інфраструктуру в одного гіперскейлера, не можуть використовувати TPU. Компанії в регульованих галузях, які забороняють специфічні хмарні залежності, не можуть використовувати TPU. Обмеження не застосовується до Anthropic або Meta, які працюють у достатньому масштабі для ведення прямих переговорів. Воно застосовується до довгого хвоста ринку.
Тренування все ще переважно відбувається на NVIDIA. Google тренує Gemini на TPU. Усі інші тренують на NVIDIA. Ринок тренування відрізняється від ринку інференсу кількома способами: навантаження тренування більш різноманітні та менш стандартизовані, ніж інференс; тренування вимагає більшої гнучкості для експериментів з архітектурами; тренування більше виграє від глибини екосистеми. Позиція NVIDIA у тренуванні залишається сильнішою, ніж її позиція в інференсі.
Сегментація ринку не означає втрату ринку. Якщо TPU захоплять 20% гіперскейл-інференсу, тоді як NVIDIA зберігає 95% тренування, 90% корпоративного інференсу та 80% іншого гіперскейл-інференсу, абсолютний обсяг і дохід NVIDIA продовжують зростати. Ринок AI-обчислень розширюється швидше, ніж будь-який сегмент, який можуть захопити TPU. Частка NVIDIA може трохи знизитися, тоді як її дохід подвоїться.
Прогноз: TPU стануть значущою частиною ландшафту AI-обчислень, конкретно для чутливого до витрат інференсу в гіперскейлі. NVIDIA зберігає домінування у тренуванні, домінування у корпоративному сегменті та більшість гіперскейл-обчислень. Обидві компанії ростуть. Формулювання TPU як «загрози» NVIDIA плутає сегментну конкуренцію з витісненням платформи.
AMD MI300X: специфікації перемагають у бенчмарках, екосистеми перемагають на ринках
AMD MI300X пропонує переконливі специфікації: 192 ГБ пам'яті HBM3 проти 80 ГБ у H100.¹⁷ Для навантажень інференсу з обмеженням пам'яті більше пам'яті має значення. Великі мовні моделі під час інференсу часто впираються у пропускну здатність пам'яті, а не в обчислення. Специфікації MI300X представляють справді конкурентоспроможне обладнання.
Частка ринку розповідає іншу історію. За оцінками Omdia, NVIDIA утримує приблизно 80% ринку AI-прискорювачів.¹⁸ AMD захоплює однозначні відсотки. Розрив не скоротився суттєво, попри випуски кількох поколінь конкурентоспроможного обладнання.
Цей патерн поширюється на всю історію конкуренції AMD з NVIDIA. Кожне покоління AMD оголошує обладнання, яке відповідає або перевищує NVIDIA за специфікаціями. Кожне покоління NVIDIA зберігає частку ринку. Кожне покоління спостерігачі прогнозують, що розрив скоротиться. Кожне покоління цього не відбувається.
Послідовність цього патерну протягом п'ятнадцяти років конкуренції надає вагомі докази того, що щось інше, крім специфікацій, визначає ринкові результати. Це щось — екосистема.
ROCm, відповідь AMD на CUDA, існує та функціонує. Підтримка фреймворків існує. Бібліотеки існують. Документація існує. Але кожен елемент існує з нижчою щільністю, ніж еквівалент NVIDIA. PyTorch працює на ROCm; більше користувачів PyTorch запускають на CUDA. MIOpen надає примітиви глибокого
[Вміст обрізано для перекладу]