Vị Thế Bất Khả Xâm Phạm Của NVIDIA: Phân Tích Kỹ Thuật Về Lý Do Hào Phòng Thủ Vẫn Vững Đến 2030
Cập nhật ngày 11 tháng 12, 2025
Cập nhật tháng 12/2025: NVIDIA duy trì 80% thị phần chip tăng tốc AI, biên lợi nhuận gộp 78% bất chấp các đối thủ (DeepSeek, TPU, MI300X, kiểm soát xuất khẩu). Cổ phiếu giảm khi có mối đe dọa, rồi phục hồi. Hào phòng thủ không phải bản thân CUDA—mà là 19 năm tích lũy hệ sinh thái: cuDNN, cuBLAS, NCCL, tối ưu hóa PyTorch/TensorFlow, bộ công cụ Nsight, tài liệu hướng dẫn. Chi phí chuyển đổi vượt xa lợi thế hiệu năng đối với hầu như mọi khách hàng.
Mỗi mối đe dọa đối với NVIDIA đều theo cùng một kịch bản. Các nhà phân tích xác định một đối thủ—hiệu suất của DeepSeek, TPU của Google, MI300X của AMD, các mô hình mã nguồn mở, kiểm soát xuất khẩu—và dự đoán thị phần sẽ bị xói mòn. Cổ phiếu giảm. Tiêu đề tràn ngập. Rồi mối đe dọa qua đi. Thị phần vẫn ở mức 80%.¹ Biên lợi nhuận gộp giữ ở 78%.² Các đại gia điện toán đám mây công bố thêm một đợt chi tiêu vốn, phần lớn chảy vào phần cứng NVIDIA.³
Mô hình này lặp lại vì các phân tích tập trung vào biến số sai. Người quan sát so sánh thông số kỹ thuật và kết luận rằng đối thủ đã bắt kịp hoặc sẽ sớm bắt kịp. So sánh này bỏ lỡ điều làm cho vị thế của NVIDIA bền vững: chi phí chuyển đổi vượt xa lợi thế hiệu năng đến mức các chủ thể hành động hợp lý vẫn ở lại ngay cả khi các lựa chọn thay thế có thông số tốt hơn.
NVIDIA sẽ duy trì thị phần thống trị đến năm 2030. Không phải vì đối thủ không sản xuất được phần cứng tốt hơn ở một số chỉ số cụ thể—họ đã làm được trong một số trường hợp. Không phải vì cải thiện hiệu suất không giảm yêu cầu tính toán cho mỗi mô hình—họ đã làm được. NVIDIA thắng vì tổng chi phí chuyển đổi nền tảng vượt quá tổng lợi ích của việc chuyển đổi đối với hầu như mọi khách hàng trên thị trường. Để hiểu tại sao, cần hiểu hào phòng thủ thực sự bao gồm những gì.
Hào phòng thủ không phải CUDA. Hào phòng thủ là mọi thứ được xây dựng trên CUDA.
CUDA ra mắt năm 2006. Mười chín năm đầu tư tích lũy theo sau. Khoản đầu tư đó không chỉ tạo ra một giao diện lập trình. Nó tạo ra một hệ sinh thái toàn diện đến mức CUDA hoạt động ít giống như một nền tảng phần mềm mà giống như cơ sở hạ tầng nền tảng của phát triển AI.
Lớp nền bao gồm mô hình tính toán song song và các trừu tượng lập trình. CUDA cung cấp cách để lập trình viên diễn đạt các phép tính song song thực thi hiệu quả trên kiến trúc GPU. Lớp nền này hoạt động tốt, nhưng về lý thuyết có thể được sao chép. ROCm của AMD cung cấp các trừu tượng tương tự. oneAPI của Intel cũng cố gắng làm điều tương tự.
Các lớp tích lũy phía trên lớp nền tạo ra lợi thế phòng thủ.
Thư viện và các thành phần cơ bản: cuDNN cho các nguyên thủy deep learning. cuBLAS cho đại số tuyến tính. cuFFT cho biến đổi Fourier. Thrust cho thuật toán song song. NCCL cho giao tiếp đa GPU. Mỗi thư viện đại diện cho hàng nghìn giờ kỹ thuật tối ưu hóa cho kiến trúc NVIDIA. Mỗi tối ưu hóa kết hợp với các tối ưu hóa khác. Một mô hình sử dụng cuDNN cho tích chập, cuBLAS cho phép toán ma trận, và NCCL cho tổng hợp gradient nắm bắt các tối ưu hóa ở mọi lớp của stack.⁴
Tích hợp framework: PyTorch, TensorFlow, JAX, và mọi framework lớn khác tối ưu hóa trước tiên và sâu nhất cho GPU NVIDIA. Các nhà phát triển framework sử dụng phần cứng NVIDIA. Bộ kiểm thử framework chạy trên phần cứng NVIDIA. Báo cáo lỗi đến chủ yếu từ người dùng NVIDIA. Các framework hoạt động trên phần cứng khác; chúng hoạt động tốt nhất trên phần cứng NVIDIA.⁵
Chuỗi công cụ và gỡ lỗi: Nsight để phân tích hiệu năng và gỡ lỗi. CUDA-GDB để gỡ lỗi kernel. Compute Sanitizer để phát hiện lỗi. Các công cụ giúp lập trình viên viết mã đúng, hiệu quả. Các công cụ không tồn tại hoặc tồn tại ở dạng chưa hoàn thiện trên các nền tảng cạnh tranh.
Tài liệu và kiến thức: Mười chín năm bài viết blog, hướng dẫn, bài báo học thuật, câu trả lời Stack Overflow, và kiến thức tổ chức. Khi lập trình viên gặp vấn đề CUDA, giải pháp tồn tại ở đâu đó. Khi lập trình viên gặp vấn đề ROCm, họ có thể là người đầu tiên thấy nó.
Thói quen của lập trình viên: Nghiên cứu sinh học CUDA. Các nhóm nghiên cứu sử dụng CUDA. Kỹ sư xây dựng sự nghiệp xoay quanh chuyên môn CUDA. Những người đưa ra quyết định công nghệ đã dành nhiều năm tích lũy kỹ năng đặc thù CUDA không chuyển sang các nền tảng khác được.
Các lớp kết hợp với nhau. Một tổ chức chuyển từ NVIDIA sang AMD không chỉ thay đổi phần cứng. Họ viết lại kernel CUDA sang HIP hoặc ROCm. Họ thay thế các lệnh gọi cuDNN bằng lệnh gọi MIOpen. Họ đào tạo lại lập trình viên. Họ bỏ Nsight và học công cụ mới. Họ rời bỏ kiến thức cộng đồng giải quyết các vấn đề khó lúc 2 giờ sáng. Họ chấp nhận rủi ro gỡ lỗi trong một hệ sinh thái có độ phủ thấp hơn.
Mỗi lớp thêm chi phí chuyển đổi. Chi phí chuyển đổi nhân lên, không cộng lại. Lợi thế 20% trên giấy trở thành bất lợi 20% trong thực tế khi đạt được nó đòi hỏi xây dựng lại toàn bộ stack từ đầu.
Tại sao DeepSeek chứng minh hào phòng thủ thay vì đe dọa nó
Thông báo tháng 1/2025 của DeepSeek tuyên bố các mô hình AI tiên tiến có thể được huấn luyện với 6 triệu đô la thay vì 600 triệu đô la.⁶ Thị trường diễn giải đây là mối đe dọa sinh tồn: nếu mô hình có thể được xây dựng rẻ, nhu cầu về phần cứng đắt tiền sẽ sụp đổ.
Diễn giải này thất bại ở nhiều cấp độ, mỗi cấp độ tiết lộ các khía cạnh của sức mạnh cấu trúc NVIDIA.
Cải thiện hiệu suất không giảm nhu cầu; chúng mở rộng nó. Nghịch lý Jevons—quan sát rằng cải thiện hiệu suất tăng chứ không giảm tổng tiêu thụ tài nguyên—áp dụng trực tiếp. Khi chi phí huấn luyện giảm 99%, thị trường có thể tiếp cận mở rộng hơn 99 lần. Các tổ chức không đủ khả năng chi trả AI tiên tiến ở mức 600 triệu đô la có thể chi trả ở mức 6 triệu đô la. Tổng tiêu thụ tính toán tăng ngay cả khi tiêu thụ trên mỗi mô hình giảm.
Phản ứng của Meta chứng minh điều này ngay lập tức. Vài ngày sau thông báo của DeepSeek, Meta nâng hướng dẫn chi tiêu AI năm 2025 lên 60-65 tỷ đô la.⁷ Công ty coi huấn luyện rẻ hơn là lý do để huấn luyện nhiều mô hình hơn cho nhiều trường hợp sử dụng hơn, không phải lý do để giảm đầu tư cơ sở hạ tầng.
DeepSeek chạy trên phần cứng NVIDIA. Công ty sử dụng chip NVIDIA bị hạn chế xuất khẩu bổ sung bằng Ascend 910B của Huawei, đạt 91% hiệu năng so với NVIDIA tương đương.⁸ Ngay cả công ty được cho là đe dọa sự thống trị của NVIDIA cũng không thể thoát khỏi hệ sinh thái của NVIDIA hoàn toàn. Các đổi mới hiệu suất DeepSeek phát triển—mixture of experts, tối ưu hóa attention, cải thiện chương trình huấn luyện—chuyển sang phần cứng NVIDIA. Các tổ chức muốn hiệu suất của DeepSeek có thể đạt được trong khi vẫn ở trên nền tảng NVIDIA.
Thị trường xử lý chính xác tín hiệu trong vòng 48 giờ. Khoản lỗ 593 tỷ đô la trong một ngày của NVIDIA đảo ngược khi các nhà đầu tư tổ chức nhận ra phản ứng thái quá.⁹ Cổ phiếu phục hồi 8,9% ngày hôm sau. Nhà đầu tư cá nhân bán; tổ chức mua vào lúc giảm. Các tham gia thị trường tinh vi hiểu điều mà các tiêu đề bỏ lỡ.
Cam kết công nghiệp không dao động. Chevron và GE Vernova công bố kế hoạch xây dựng nhà máy điện chuyên dụng cho trung tâm dữ liệu sau thông báo của DeepSeek, không phải trước.¹⁰ Các công ty công nghiệp không cam kết hàng tỷ đô la vào các dự án cơ sở hạ tầng dựa trên bong bóng hoặc công nghệ sắp lỗi thời. Họ xây dựng cho hàng thập kỷ nhu cầu bền vững.
Sự kiện DeepSeek kiểm tra hào phòng thủ của NVIDIA với điều kiện thuận lợi nhất có thể cho kịch bản giảm giá: cải thiện hiệu suất đáng kể, từ đối thủ không bị ràng buộc bởi quy định xuất khẩu của Mỹ, được công bố ở đỉnh cao phấn khích thị trường. Hào phòng thủ vẫn đứng vững. Bất kỳ thách thức nào trong tương lai đều hoạt động trong điều kiện kém thuận lợi hơn.
TPU: cạnh tranh thực sự trong một phân khúc xác định, không phải mối đe dọa nền tảng
Tensor Processing Units của Google đại diện cho cạnh tranh thực sự. TPUv7 (Ironwood) cung cấp 4.614 TFLOPS ở BF16, cải thiện 10 lần so với TPUv5p.¹¹ Google đã giành được khách hàng đáng kể: cơ sở hạ tầng của Anthropic vượt quá 1 GW công suất TPU.¹² Meta được báo cáo có kế hoạch sử dụng TPU trong trung tâm dữ liệu vào năm 2027.¹³ OpenAI, SSI, và xAI đã thảo luận về việc truy cập TPU với Google.¹⁴
Những chiến thắng này là thực. Chúng không đe dọa vị thế thống trị của NVIDIA vì chúng xảy ra trong một phân khúc thị trường cụ thể với các đặc điểm không khái quát hóa được.
TPU tối ưu hóa cho chi phí suy luận ở quy mô lớn. Chi phí suy luận cho hệ thống AI sản xuất vượt quá chi phí huấn luyện 15-118 lần.¹⁵ Ở quy mô lớn, tối ưu hóa chi phí suy luận mang lại giá trị kinh tế đáng kể. TPU của Google cung cấp hiệu năng trên mỗi đô la tốt hơn 4,7 lần và tiêu thụ điện thấp hơn 67% cho các khối lượng công việc này.¹⁶ Đối với các tổ chức chạy suy luận ở quy mô lớn với chi phí là ràng buộc chính, TPU cung cấp kinh tế hấp dẫn.
TPU vẫn bị giam trong hệ sinh thái của Google. Các tổ chức truy cập TPU thông qua Google Cloud hoặc thông qua quan hệ trực tiếp với Google. Phần cứng không được gửi đến trung tâm dữ liệu của khách hàng. Hệ sinh thái phần mềm không tồn tại độc lập với cơ sở hạ tầng của Google. Chọn TPU có nghĩa là chọn Google làm đối tác chiến lược ở cấp độ cơ bản.
Ràng buộc này loại bỏ phần lớn thị trường. Doanh nghiệp triển khai AI trong trung tâm dữ liệu riêng không thể sử dụng TPU. Các tổ chức không muốn tập trung cơ sở hạ tầng với một nhà cung cấp đám mây duy nhất không thể sử dụng TPU. Các công ty trong ngành được quản lý cấm phụ thuộc đám mây cụ thể không thể sử dụng TPU. Ràng buộc không áp dụng cho Anthropic hoặc Meta, hoạt động ở quy mô đủ để đàm phán quan hệ trực tiếp. Nó áp dụng cho phần đuôi dài của thị trường.
Huấn luyện vẫn diễn ra chủ yếu trên NVIDIA. Google huấn luyện Gemini trên TPU. Tất cả những người khác huấn luyện trên NVIDIA. Thị trường huấn luyện khác với thị trường suy luận ở nhiều điểm: khối lượng công việc huấn luyện đa dạng và ít chuẩn hóa hơn suy luận; huấn luyện đòi hỏi linh hoạt hơn để thử nghiệm kiến trúc; huấn luyện hưởng lợi nhiều hơn từ độ sâu hệ sinh thái. Vị thế của NVIDIA trong huấn luyện vẫn mạnh hơn vị thế trong suy luận.
Phân khúc thị trường không bằng mất thị trường. Nếu TPU chiếm 20% suy luận quy mô lớn trong khi NVIDIA giữ 95% huấn luyện, 90% suy luận doanh nghiệp, và 80% tính toán quy mô lớn khác, khối lượng và doanh thu tuyệt đối của NVIDIA tiếp tục tăng. Thị trường tính toán AI mở rộng nhanh hơn bất kỳ phân khúc nào TPU có thể chiếm. Thị phần của NVIDIA có thể giảm nhẹ trong khi doanh thu tăng gấp đôi.
Dự đoán: TPU trở thành một phần có ý nghĩa của bối cảnh tính toán AI, cụ thể cho suy luận nhạy cảm chi phí ở quy mô lớn. NVIDIA giữ thống trị huấn luyện, thống trị doanh nghiệp, và đa số tính toán quy mô lớn. Cả hai công ty đều tăng trưởng. Việc đóng khung TPU là "mối đe dọa" NVIDIA nhầm cạnh tranh phân khúc với thay thế nền tảng.
AMD MI300X: thông số thắng benchmark, hệ sinh thái thắng thị trường
MI300X của AMD cung cấp thông số hấp dẫn: 192 GB bộ nhớ HBM3 so với 80 GB của H100.¹⁷ Đối với khối lượng công việc suy luận bị giới hạn bởi bộ nhớ, nhiều bộ nhớ hơn quan trọng. Các mô hình ngôn ngữ lớn trong quá trình suy luận thường nghẽn cổ chai ở băng thông bộ nhớ hơn là tính toán. Bảng thông số MI300X trình bày phần cứng cạnh tranh thực sự.
Thị phần kể câu chuyện khác. Omdia ước tính NVIDIA nắm giữ khoảng 80% thị trường chip tăng tốc AI.¹⁸ AMD chiếm điểm phần trăm một chữ số. Khoảng cách không thu hẹp đáng kể bất chấp nhiều thế hệ phát hành phần cứng cạnh tranh.
Mô hình này kéo dài trong toàn bộ lịch sử cạnh tranh của AMD với NVIDIA. Mỗi thế hệ, AMD công bố phần cứng phù hợp hoặc vượt NVIDIA về thông số. Mỗi thế hệ, NVIDIA duy trì thị phần. Mỗi thế hệ, người quan sát dự đoán khoảng cách sẽ thu hẹp. Mỗi thế hệ, nó không xảy ra.
Sự nhất quán của mô hình này qua mười lăm năm cạnh tranh cung cấp bằng chứng mạnh mẽ rằng thứ gì đó khác ngoài thông số quyết định kết quả thị trường. Thứ đó là hệ sinh thái.
ROCm, câu trả lời của AMD cho CUDA, tồn tại và hoạt động. Hỗ trợ framework tồn tại. Thư viện tồn tại. Tài liệu tồn tại. Nhưng mỗi yếu tố tồn tại ở mật độ thấp hơn tương đương NVIDIA. PyTorch hoạt động trên ROCm; nhiều người dùng PyTorch chạy trên CUDA hơn. MIOpen cung cấp
[Nội dung bị cắt ngắn cho bản dịch]