NVIDIA의 난공불락 지위: 2030년까지 해자가 유지되는 이유에 대한 기술적 분석
2025년 12월 11일 업데이트
2025년 12월 업데이트: NVIDIA는 도전자들(DeepSeek, TPU, MI300X, 수출 규제)에도 불구하고 AI 가속기 시장 점유율 80%, 매출총이익률 78%를 유지하고 있다. 위협이 나타나면 주가가 하락했다가 다시 회복한다. 해자는 CUDA 자체가 아니다—19년간 축적된 생태계가 진짜 해자다: cuDNN, cuBLAS, NCCL, PyTorch/TensorFlow 최적화, Nsight 툴체인, 문서화. 전환 비용이 거의 모든 고객에게 성능 이점을 초과한다.
NVIDIA에 대한 모든 위협은 같은 각본을 따른다. 애널리스트들이 도전자를 지목한다—DeepSeek의 효율성, Google의 TPU, AMD의 MI300X, 오픈소스 모델, 수출 규제—그리고 시장 점유율 하락을 예측한다. 주가가 떨어진다. 헤드라인이 쏟아진다. 그러다 위협이 지나간다. 시장 점유율은 80%를 유지한다.¹ 매출총이익률은 78%를 유지한다.² 하이퍼스케일러들은 또 다른 자본 지출 계획을 발표하고, 대부분은 NVIDIA 하드웨어로 흘러간다.³
이 패턴이 반복되는 이유는 분석이 잘못된 변수에 초점을 맞추기 때문이다. 관찰자들은 사양을 비교하고 경쟁자들이 따라잡았거나 곧 따라잡을 것이라고 결론짓는다. 이 비교는 NVIDIA의 위치를 견고하게 만드는 것을 놓친다: 플랫폼 전환 비용이 성능 이점을 너무나 큰 폭으로 초과하기 때문에, 대안이 더 좋은 사양을 제공하더라도 합리적인 행위자들은 그대로 남는다.
NVIDIA는 2030년까지 지배적인 시장 점유율을 유지할 것이다. 경쟁자들이 특정 지표에서 더 나은 하드웨어를 생산하지 못해서가 아니다—일부 경우에는 이미 그렇게 했다. 효율성 향상이 모델당 컴퓨팅 요구량을 줄이지 못해서가 아니다—이미 줄었다. NVIDIA가 이기는 이유는 플랫폼 전환의 총비용이 시장의 거의 모든 고객에게 전환의 총이익을 초과하기 때문이다. 그 이유를 이해하려면 해자가 실제로 무엇으로 구성되어 있는지 이해해야 한다.
해자는 CUDA가 아니다. 해자는 CUDA 위에 구축된 모든 것이다.
CUDA는 2006년에 출시되었다. 19년간의 축적된 투자가 뒤따랐다. 그 투자는 단순히 프로그래밍 인터페이스를 만든 것이 아니다. CUDA가 소프트웨어 플랫폼이라기보다는 AI 개발 자체의 기반 인프라처럼 기능할 정도로 포괄적인 생태계를 만들었다.
기본 레이어는 병렬 컴퓨팅 모델과 프로그래밍 추상화로 구성된다. CUDA는 개발자들이 GPU 아키텍처에서 효율적으로 실행되는 병렬 계산을 표현하는 방법을 제공한다. 이 기본 레이어는 잘 작동하지만, 이론적으로 복제될 수 있다. AMD의 ROCm은 유사한 추상화를 제공한다. Intel의 oneAPI도 같은 것을 시도한다.
기본 위에 축적된 레이어가 방어 가능한 이점을 만든다.
라이브러리와 프리미티브: 딥러닝 프리미티브를 위한 cuDNN. 선형대수를 위한 cuBLAS. 푸리에 변환을 위한 cuFFT. 병렬 알고리즘을 위한 Thrust. 멀티 GPU 통신을 위한 NCCL. 각 라이브러리는 NVIDIA 아키텍처에 최적화하기 위한 수천 시간의 엔지니어링을 나타낸다. 각 최적화는 다른 최적화와 복합된다. 컨볼루션에 cuDNN을, 행렬 연산에 cuBLAS를, 그래디언트 집계에 NCCL을 사용하는 모델은 스택의 모든 레이어에서 최적화를 포착한다.⁴
프레임워크 통합: PyTorch, TensorFlow, JAX 및 다른 모든 주요 프레임워크는 NVIDIA GPU를 위해 가장 먼저, 가장 깊이 최적화한다. 프레임워크 개발자들은 NVIDIA 하드웨어를 사용한다. 프레임워크 테스트 스위트는 NVIDIA 하드웨어에서 실행된다. 버그 리포트는 주로 NVIDIA 사용자들로부터 온다. 프레임워크는 다른 하드웨어에서도 작동한다; NVIDIA 하드웨어에서 가장 잘 작동한다.⁵
툴체인과 디버깅: 프로파일링과 디버깅을 위한 Nsight. 커널 디버깅을 위한 CUDA-GDB. 오류 감지를 위한 Compute Sanitizer. 개발자들이 정확하고 효율적인 코드를 작성하도록 돕는 도구들. 경쟁 플랫폼에는 존재하지 않거나 미성숙한 형태로 존재하는 도구들.
문서화와 지식: 19년간의 블로그 포스트, 튜토리얼, 학술 논문, Stack Overflow 답변, 그리고 기관 지식. 개발자가 CUDA 문제를 만나면, 해결책이 어딘가에 존재한다. 개발자가 ROCm 문제를 만나면, 그것을 처음 보는 사람일 수 있다.
개발자 근육 기억: 대학원생들은 CUDA를 배운다. 연구팀들은 CUDA를 사용한다. 엔지니어들은 CUDA 전문성을 중심으로 커리어를 쌓는다. 기술 결정을 내리는 사람들은 다른 플랫폼으로 이전되지 않는 CUDA 특화 기술을 축적하며 수년을 보냈다.
레이어들은 복합된다. NVIDIA에서 AMD로 전환하는 조직은 단순히 하드웨어를 바꾸는 것이 아니다. CUDA 커널을 HIP이나 ROCm으로 재작성한다. cuDNN 호출을 MIOpen 호출로 대체한다. 개발자들을 재교육한다. Nsight를 버리고 새로운 도구를 배운다. 새벽 2시에 난해한 문제를 해결하는 커뮤니티 지식을 뒤로 한다. 커버리지가 적은 생태계에서 디버깅 리스크를 떠안는다.
각 레이어는 전환 비용을 추가한다. 전환 비용은 덧셈이 아니라 곱셈으로 쌓인다. 서류상 20%의 이점은 전체 스택을 처음부터 다시 구축해야 할 때 실제로는 20%의 불이익이 된다.
DeepSeek가 해자를 위협하기보다 증명한 이유
DeepSeek의 2025년 1월 발표는 프론티어 AI 모델을 6억 달러 대신 600만 달러로 훈련할 수 있다고 주장했다.⁶ 시장은 이를 실존적 위협으로 해석했다: 모델을 저렴하게 구축할 수 있다면, 비싼 하드웨어에 대한 수요가 붕괴될 것이라고.
이 해석은 여러 수준에서 실패했으며, 각각은 NVIDIA의 구조적 강점의 측면을 드러낸다.
효율성 향상은 수요를 줄이지 않는다; 확장한다. 제본스 역설—효율성 개선이 총 자원 소비를 줄이기보다 증가시킨다는 관찰—이 직접 적용된다. 훈련 비용이 99% 떨어지면, 잠재 시장은 99배 이상 확장된다. 6억 달러로는 프론티어 AI를 감당할 수 없던 조직들이 600만 달러로는 감당할 수 있다. 모델당 소비가 감소하더라도 총 컴퓨팅 소비는 증가한다.
Meta의 반응이 이를 즉시 보여주었다. DeepSeek 발표 며칠 후, Meta는 2025년 AI 지출 가이던스를 600-650억 달러로 상향했다.⁷ 회사는 더 저렴한 훈련을 인프라 투자를 줄일 이유가 아니라 더 많은 사용 사례를 위해 더 많은 모델을 훈련할 이유로 보았다.
DeepSeek는 NVIDIA 하드웨어에서 실행되었다. 이 회사는 수출 제한된 NVIDIA 칩을 사용했고, 비교 가능한 NVIDIA 성능의 91%를 달성하는 화웨이의 Ascend 910B로 보완했다.⁸ NVIDIA의 지배력을 위협한다고 가정된 회사조차 NVIDIA의 생태계를 완전히 벗어날 수 없었다. DeepSeek가 개발한 효율성 혁신—mixture of experts, 어텐션 최적화, 훈련 커리큘럼 개선—은 NVIDIA 하드웨어로 이전된다. DeepSeek의 효율성을 원하는 조직들은 NVIDIA 플랫폼에 머물면서 달성할 수 있다.
시장은 48시간 내에 신호를 올바르게 처리했다. NVIDIA의 5,930억 달러 단일일 손실은 기관 투자자들이 과잉 반응을 인식하면서 반전되었다.⁹ 주가는 다음 날 8.9% 회복했다. 개인 투자자들은 팔았고; 기관들은 하락을 매수했다. 정교한 시장 참여자들은 헤드라인이 놓친 것을 이해했다.
산업계의 헌신은 흔들리지 않았다. Chevron과 GE Vernova는 DeepSeek 발표 후에, 발표 전이 아니라, 데이터 센터를 위한 전용 발전소 건설 계획을 발표했다.¹⁰ 산업 회사들은 버블이나 곧 구식이 될 기술에 기반하여 수십억 달러의 인프라 프로젝트에 투자하지 않는다. 그들은 수십 년간의 지속적인 수요를 위해 건설한다.
DeepSeek 에피소드는 약세론에 가장 유리한 조건으로 NVIDIA의 해자를 테스트했다: 극적인 효율성 개선, 미국 수출 규제에 구애받지 않는 경쟁자로부터, 시장 열광이 정점에 달했을 때 발표. 해자는 유지되었다. 미래의 어떤 도전도 덜 유리한 조건에서 작동한다.
TPU: 정의된 세그먼트에서의 실제 경쟁, 플랫폼 위협은 아님
Google의 Tensor Processing Unit은 진정한 경쟁을 나타낸다. TPUv7(Ironwood)는 BF16에서 4,614 TFLOPS를 제공하며, TPUv5p 대비 10배 개선이다.¹¹ Google은 중요한 고객을 확보했다: Anthropic의 구축은 1GW의 TPU 용량을 초과한다.¹² Meta는 2027년까지 데이터 센터에서 TPU를 사용할 계획이라고 보도되었다.¹³ OpenAI, SSI, xAI는 Google과 TPU 접근에 대해 논의했다.¹⁴
승리는 실제다. 그것들이 NVIDIA의 지배적 위치를 위협하지 않는 이유는 일반화되지 않는 특성을 가진 특정 시장 세그먼트에서 발생하기 때문이다.
TPU는 하이퍼스케일에서 추론 비용에 최적화된다. 프로덕션 AI 시스템의 추론 비용은 훈련 비용을 15-118배 초과한다.¹⁵ 하이퍼스케일에서 추론 비용 최적화는 상당한 경제적 가치를 창출한다. Google의 TPU는 이러한 워크로드에 대해 달러당 4.7배 더 나은 성능과 67% 낮은 전력 소비를 제공한다.¹⁶ 비용을 주요 제약으로 하여 대규모로 추론을 실행하는 조직에게 TPU는 매력적인 경제성을 제공한다.
TPU는 Google 생태계에 종속되어 있다. 조직들은 Google Cloud를 통해 또는 Google과의 직접적인 관계를 통해 TPU에 접근한다. 하드웨어는 고객 데이터 센터로 배송되지 않는다. 소프트웨어 생태계는 Google 인프라와 독립적으로 존재하지 않는다. TPU를 선택한다는 것은 근본적인 수준에서 Google을 전략적 파트너로 선택한다는 것을 의미한다.
이 제약은 대부분의 시장을 제거한다. 자체 데이터 센터에 AI를 배포하는 기업은 TPU를 사용할 수 없다. 단일 하이퍼스케일러에 인프라를 집중시키기를 원하지 않는 조직은 TPU를 사용할 수 없다. 특정 클라우드 종속성을 금지하는 규제 산업의 회사들은 TPU를 사용할 수 없다. 이 제약은 직접 관계를 협상할 수 있을 만큼 충분한 규모로 운영하는 Anthropic이나 Meta에는 적용되지 않는다. 시장의 롱테일에는 적용된다.
훈련은 여전히 주로 NVIDIA에서 이루어진다. Google은 TPU에서 Gemini를 훈련한다. 다른 모든 사람들은 NVIDIA에서 훈련한다. 훈련 시장은 추론 시장과 여러 면에서 다르다: 훈련 워크로드는 추론보다 더 다양하고 덜 표준화되어 있다; 훈련은 아키텍처를 실험하기 위해 더 많은 유연성이 필요하다; 훈련은 생태계 깊이로부터 더 많은 이점을 얻는다. 훈련에서 NVIDIA의 위치는 추론에서의 위치보다 더 강하다.
시장 세분화는 시장 상실과 같지 않다. TPU가 하이퍼스케일 추론의 20%를 차지하고 NVIDIA가 훈련의 95%, 기업 추론의 90%, 기타 하이퍼스케일 컴퓨팅의 80%를 유지한다면, NVIDIA의 절대 볼륨과 매출은 계속 성장한다. AI 컴퓨팅 시장은 TPU가 차지할 수 있는 어떤 세그먼트보다 빠르게 확장된다. NVIDIA의 점유율은 약간 하락할 수 있지만 매출은 두 배가 될 수 있다.
예측: TPU는 AI 컴퓨팅 환경에서 의미 있는 부분이 된다, 특히 하이퍼스케일에서의 비용 민감한 추론에 대해. NVIDIA는 훈련 지배력, 기업 지배력, 하이퍼스케일 컴퓨팅의 과반수를 유지한다. 두 회사 모두 성장한다. TPU를 NVIDIA "위협"으로 프레이밍하는 것은 세그먼트 경쟁을 플랫폼 대체로 오인하는 것이다.
AMD MI300X: 사양은 벤치마크에서 이기고, 생태계는 시장에서 이긴다
AMD의 MI300X는 매력적인 사양을 제공한다: H100의 80GB 대비 192GB의 HBM3 메모리.¹⁷ 메모리 바운드 추론 워크로드의 경우, 더 많은 메모리가 중요하다. 추론 중 대형 언어 모델은 종종 컴퓨팅보다 메모리 대역폭에서 병목이 발생한다. MI300X 사양서는 진정한 경쟁력 있는 하드웨어를 제시한다.
시장 점유율은 다른 이야기를 말한다. Omdia는 NVIDIA가 AI 가속기 시장의 약 80%를 점유하고 있다고 추정한다.¹⁸ AMD는 한 자릿수 퍼센트를 차지한다. 여러 세대의 경쟁력 있는 하드웨어 출시에도 불구하고 격차는 의미 있게 좁혀지지 않았다.
이 패턴은 NVIDIA와의 AMD의 전체 경쟁 역사에 걸쳐 확장된다. 매 세대마다 AMD는 사양에서 NVIDIA를 맞추거나 초과하는 하드웨어를 발표한다. 매 세대마다 NVIDIA는 시장 점유율을 유지한다. 매 세대마다 관찰자들은 격차가 좁혀질 것이라고 예측한다. 매 세대마다 그렇지 않다.
15년간의 경쟁에 걸친 이 패턴의 일관성은 사양 이외의 무언가가 시장 결과를 결정한다는 강력한 증거를 제공한다. 그 무언가가 생태계다.
ROCm, CUDA에 대한 AMD의 답변은 존재하고 기능한다. 프레임워크 지원이 존재한다. 라이브러리가 존재한다. 문서화가 존재한다. 그러나 각 요소는 NVIDIA 동등물보다 낮은 밀도로 존재한다. PyTorch는 ROCm에서 작동한다; 더 많은 PyTorch 사용자들이 CUDA에서 실행한다. MIOpen은 딥
[번역을 위해 내용 잘림]