DeepSeek V3.2 Vượt GPT-5 Trên Các Benchmark Hàng Đầu: Bước Tiến AI Của Trung Quốc Có Ý Nghĩa Gì Cho Hạ Tầng
10 tháng 12, 2025 Viết bởi Blake Crosley
DeepSeek của Trung Quốc đã công bố hai mô hình AI mới vào ngày 1 tháng 12 năm 2025, với DeepSeek-V3.2-Speciale đạt được kết quả thi đấu xuất sắc: trình độ huy chương vàng tại Olympiad Toán học Quốc tế 2025 (35/42 điểm), hạng 10 tại Olympiad Tin học Quốc tế (492/600 điểm), và hạng 2 tại Chung kết Thế giới ICPC.[^1] Về hiệu năng benchmark, biến thể Speciale đạt tỷ lệ đạt 96,0% trên AIME so với 94,6% của GPT-5-High và 95,0% của Gemini-3.0-Pro.[^2] Cả hai mô hình đều phát hành miễn phí và mã nguồn mở theo giấy phép Apache 2.0, thách thức các giả định về yêu cầu tính toán cho khả năng AI tiên phong.
Đợt phát hành này đánh dấu một thời điểm quan trọng trong địa chính trị AI. Một phòng thí nghiệm Trung Quốc hoạt động dưới các hạn chế xuất khẩu chip của Mỹ đã sản xuất các mô hình tương đương hoặc vượt trội các hệ thống tiên phong của Mỹ trong các nhiệm vụ suy luận cao cấp. Thành tựu này đặt ra câu hỏi về mối quan hệ giữa đầu tư hạ tầng và khả năng AI, với những hàm ý cho các tổ chức đang lên kế hoạch mua sắm GPU và hạ tầng đào tạo.
Phân tích hiệu năng benchmark
DeepSeek-V3.2-Speciale đã thể hiện hiệu năng xuất sắc trên các benchmark toán học và lập trình, đặt nó vào top ba mô hình tiên phong toàn cầu.
Trên Giải Toán Harvard-MIT, biến thể Speciale đạt 99,2%, vượt 97,5% của Gemini.[^3] AIME—một bài thi 75 phút với 15 bài toán đo lường khả năng suy luận toán học thay vì tính toán—đại diện cho một trong những benchmark suy luận thách thức nhất của AI. Điểm 96% đặt mô hình ở trình độ top 50 thí sinh olympiad toán toàn cầu.[^4]
Kiến trúc nền tảng giải thích tại sao. DeepSeek V3.2 được xây dựng trên framework Mixture-of-Experts (MoE) 685 tỷ tham số với 37 tỷ tham số được kích hoạt mỗi token.[^5] Thiết kế MoE có nghĩa là mô hình có dung lượng kiến thức của mô hình 685B nhưng chi phí suy luận của mô hình 37B—một lợi thế hiệu quả quan trọng cho phép cả đào tạo và triển khai trên phần cứng bị hạn chế.
Phiên bản DeepSeek-V3.2 tiêu chuẩn nhắm đến các trường hợp sử dụng trợ lý suy luận hàng ngày với sự cân bằng giữa khả năng và hiệu quả. Biến thể Speciale—cấu hình tính toán cao với chuỗi suy luận mở rộng—đại diện cho phiên bản khả năng tối đa được tối ưu hóa cho hiệu năng benchmark cao cấp thay vì hiệu quả chi phí.[^6] DeepSeek lưu ý rằng endpoint API Speciale hết hạn vào ngày 15 tháng 12 năm 2025, phản ánh chi phí tính toán cực cao của việc chạy mô hình ở quy mô lớn.
Cả hai mô hình đều bổ sung khả năng kết hợp suy luận và thực thi một số hành động tự động, cho thấy khả năng tác nhân bên cạnh hiệu năng benchmark thuần túy.[^7] Sự kết hợp này định vị các mô hình DeepSeek cho các ứng dụng thực tiễn ngoài benchmark học thuật.
Hàm ý về hiệu quả hạ tầng
Thành tựu của DeepSeek thách thức các giả định về yêu cầu tính toán cho AI tiên phong—và cung cấp bài học cụ thể cho việc lập kế hoạch hạ tầng.
Bước đột phá về hiệu quả đào tạo
DeepSeek đã đào tạo V3 trên 2.048 GPU NVIDIA H800—biến thể bị hạn chế xuất khẩu của H100 với tốc độ kết nối giảm—chỉ trong 2,788 triệu giờ GPU với chi phí tính toán khoảng 5,6 triệu đô la.[^8] Để so sánh, Llama 3 405B yêu cầu 30,8 triệu giờ GPU để đào tạo—gấp 11 lần tính toán cho một mô hình nhỏ hơn.[^9]
Hiệu quả đến từ ba đổi mới chính:
Đào tạo độ chính xác hỗn hợp FP8. DeepSeek tiên phong trong đào tạo FP8 (8-bit) ở quy mô lớn, giảm yêu cầu bộ nhớ trong khi duy trì độ chính xác. V3 là LLM mã nguồn mở đầu tiên được đào tạo sử dụng FP8, xác nhận kỹ thuật này cho các mô hình cực lớn.[^10]
Hiệu quả tính toán mỗi token. DeepSeek đào tạo V3 với 250 GFLOPs mỗi token, so với 394 GFLOPs mỗi token của Qwen 2.5 72B và 2.448 GFLOPs mỗi token của Llama 3.1 405B.[^11] Khoảng cách hiệu quả gấp 10 lần so với Llama chứng minh rằng đổi mới thuật toán có thể thay thế cho tính toán thô.
Multi-head Latent Attention (MLA). Kiến trúc này giảm yêu cầu băng thông bộ nhớ trong quá trình suy luận, cho phép triển khai trên phần cứng mà nếu không thì không đủ.
Điều này có nghĩa gì cho quyết định mua sắm
Khoảng cách hiệu quả mang theo hàm ý trực tiếp cho việc mua sắm GPU:
Đặt câu hỏi về các giả định cụm lớn. Nếu DeepSeek đạt hiệu năng tiên phong với 2.048 H800, các tổ chức đang lên kế hoạch cụm 10.000+ GPU nên xác minh các giả định hiệu quả của họ. Các cụm nhỏ hơn, được tối ưu hóa tốt có thể mang lại khả năng tương đương.
Đầu tư vào chuyên môn hạ tầng đào tạo. Khoảng cách giữa hiệu quả của DeepSeek và cách tiếp cận của các phòng thí nghiệm phương Tây cho thấy phương pháp đào tạo quan trọng như phần cứng. Các tổ chức nên phân bổ ngân sách cho nhân tài kỹ thuật ML bên cạnh mua sắm GPU.
Lên kế hoạch cho cải thiện hiệu quả nhanh chóng. Chu kỳ mua sắm 12-18 tháng có nguy cơ lỗi thời khi hiệu quả đào tạo cải thiện. Xem xét các cam kết ngắn hơn hoặc thỏa thuận đám mây linh hoạt thay vì mua vốn lớn bị khóa vào các giả định hiện tại.
Bối cảnh hạn chế xuất khẩu
Các hạn chế xuất khẩu chip của Mỹ giới hạn quyền truy cập của Trung Quốc vào các GPU tiên tiến nhất của NVIDIA bao gồm kiến trúc H100 và Blackwell. DeepSeek phát triển V3.2 sử dụng H800—vẫn giữ nguyên khả năng tính toán đầy đủ nhưng có tốc độ kết nối NVLink giảm—đạt hiệu năng tiên phong mà không cần truy cập phần cứng tiên phong.
Thành tựu này chứng minh rằng các ràng buộc băng thông kết nối có thể được khắc phục một phần thông qua đổi mới thuật toán. Các tổ chức không thể giả định rằng nhiều GPU hơn tự động tạo ra mô hình tốt hơn. Hiệu quả đào tạo, đổi mới kiến trúc và tối ưu hóa quan trọng bên cạnh tính toán thô.
Kinh tế mô hình mở: so sánh chi phí cụ thể
Cả hai mô hình DeepSeek-V3.2 đều phát hành miễn phí và mã nguồn mở, tạo ra lợi thế chi phí rõ rệt cho các tổ chức có hạ tầng GPU.
So sánh giá API: - GPT-5 Standard: $1,25/triệu token đầu vào, $10/triệu token đầu ra[^12] - Claude Opus 4.1: $15/triệu token đầu vào, $75/triệu token đầu ra[^13] - DeepSeek V3.2-Exp: $0,028/triệu token đầu vào[^14]
Khoảng cách giá 45x-500x có nghĩa là các tổ chức chạy khối lượng suy luận cao có thể đạt được giảm chi phí lớn bằng cách tự lưu trữ DeepSeek thay vì sử dụng API độc quyền.
Yêu cầu tự lưu trữ: Chạy mô hình đầy đủ 685B yêu cầu khoảng 700GB VRAM với độ chính xác FP8, có thể đạt được với 8-10 GPU NVIDIA H100 (80GB).[^15] Các phiên bản lượng tử hóa 4-bit giảm xuống ~386GB, cho phép triển khai trên 5-6 H100 hoặc cấu hình tương đương.[^16]
Đối với các tổ chức đã vận hành cụm GPU cho các khối lượng công việc AI khác, việc thêm suy luận DeepSeek đại diện cho chi phí biên so với phí mỗi token đáng kể của các lựa chọn thay thế độc quyền.
Thay đổi cảnh quan cạnh tranh
Tháng 11 năm 2025 chứng kiến các đợt phát hành mô hình tiên phong tập trung từ các phòng thí nghiệm lớn, với DeepSeek bổ sung cạnh tranh từ Trung Quốc vào cảnh quan tập trung vào Mỹ.
Các đợt phát hành mô hình tiên phong của Mỹ
Tháng 11 năm 2025 cực kỳ dày đặc với các đợt phát hành, khi GPT-5.1, Grok 4.1, Gemini 3 Pro và Claude Opus 4.5 đều phát hành trong vòng sáu ngày.[^17] Claude Opus 4.5, mô hình thông minh nhất của Anthropic, xuất sắc trong lập trình và các nhiệm vụ tác nhân.[^18] Gemini 3 Pro thống trị các benchmark suy luận với điểm GPQA 86,4, trong khi Claude Opus 4.5 dẫn đầu các benchmark lập trình ở mức 72,5% trên SWE-bench.[^19]
Đợt phát hành tháng 12 của DeepSeek chứng minh rằng các phòng thí nghiệm Trung Quốc có thể theo kịp tốc độ phát triển tiên phong này bất chấp các hạn chế phần cứng. Cuộc đua AI toàn cầu giờ bao gồm cạnh tranh thực sự từ Trung Quốc về khả năng, không chỉ quy mô triển khai.
Hàm ý địa chính trị
Khả năng AI tiên phong của Trung Quốc ảnh hưởng đến các cuộc thảo luận chính sách của Mỹ về hạn chế xuất khẩu, chủ quyền tính toán và vị thế dẫn đầu AI. Các nhà hoạch định chính sách giả định các hạn chế phần cứng sẽ làm chậm phát triển AI của Trung Quốc; thành tựu của DeepSeek cho thấy những hạn chế của chiến lược này.
Các tổ chức nên dự đoán sự phát triển chính sách tiếp tục khi các chính phủ phản ứng với động lực cạnh tranh thay đổi. Các hạn chế xuất khẩu có thể thắt chặt, mở rộng sang các danh mục mới, hoặc đối mặt với sự xem xét lại khi hiệu quả của chúng bị đặt câu hỏi. Việc lập kế hoạch mua sắm nên tính đến sự không chắc chắn về chính sách.
Khung quyết định: xây dựng, mua, hay chờ đợi?
Đợt phát hành của DeepSeek định hình lại phép tính xây dựng so với mua cho khả năng AI. Đây là cách suy nghĩ qua quyết định:
| Tình huống | Khuyến nghị | Lý do |
|---|---|---|
| Chi API <$10K/tháng | Tiếp tục API | Chi phí tự lưu trữ vượt quá tiết kiệm |
| $10K-50K/tháng, tải biến động | Cách tiếp cận kết hợp | Sử dụng API cho đỉnh điểm, sở hữu cho cơ sở |
| >$50K/tháng, tải ổn định | Đánh giá tự lưu trữ | ROI có thể đạt được trong 6-12 tháng |
| Đào tạo mô hình tùy chỉnh | Sở hữu hạ tầng | Kiểm soát tối ưu hóa hiệu quả |
Khung này giả định giá GPU thế hệ hiện tại. Khi nguồn cung H100 cải thiện và H200/B200 vào thị trường, kinh tế tự lưu trữ sẽ chuyển dịch thêm có lợi cho hạ tầng sở hữu.
Điều này có nghĩa gì cho việc lập kế hoạch hạ tầng
Thành tựu của DeepSeek mang theo một số hàm ý có thể hành động cho các tổ chức đang lên kế hoạch hạ tầng AI.
Hiệu quả hơn quy mô
Số lượng GPU thô quan trọng ít hơn hiệu quả đào tạo để đạt được khả năng AI. Các tổ chức nên đầu tư vào tối ưu hóa hạ tầng đào tạo bên cạnh mua sắm phần cứng. Sự kết hợp phần cứng tốt và cách tiếp cận đào tạo tốt vượt trội phần cứng xuất sắc với đào tạo ngây thơ.
Bước hành động: Trước khi cam kết đơn hàng GPU lớn, tham vấn chuyên gia kỹ thuật ML để kiểm tra hiệu quả đào tạo. Cải thiện hiệu quả 2-3x có thể giảm kích thước cụm cần thiết tương ứng.
Các quan hệ đối tác nghiên cứu và đầu tư nhân tài kỹ thuật có thể mang lại nhiều khả năng hơn mỗi đô la so với mua sắm GPU bổ sung. Các tổ chức nên cân bằng đầu tư phần cứng và vốn nhân lực dựa trên chiến lược phát triển AI của họ.
Hạ tầng triển khai mô hình mở
Các mô hình tiên phong miễn phí, mã nguồn mở thay đổi yêu cầu hạ tầng. Thay vì tối ưu hóa độ trễ API và quản lý chi phí mỗi token, các tổ chức nên xem xét hạ tầng suy luận cho triển khai tự lưu trữ. Kinh tế hạ tầng chuyển từ chi phí hoạt động sang đầu tư vốn.
Bước hành động: Tính toán chi API hiện tại của bạn. Nếu vượt quá $50.000/tháng cho suy luận, đánh giá kinh tế tự lưu trữ. Một cụm 8-GPU H100 có giá khoảng $250.000-300.000 nhưng loại bỏ phí mỗi token vĩnh viễn.
Các cụm GPU có kích thước cho suy luận thay vì đào tạo trở nên có giá trị hơn khi các mô hình mở cải thiện. Các tổ chức có thể đạt được kinh tế tốt hơn bằng cách chạy suy luận trên hạ tầng sở hữu thay vì trả biên API cho các nhà cung cấp mô hình.
Cân nhắc đa dạng hóa
Sự phụ thuộc vào nhà cung cấp mô hình đơn lẻ tạo ra rủi ro khi động lực cạnh tranh phát triển. Các tổ chức nên thiết kế hệ thống chấp nhận mô hình từ nhiều nhà cung cấp, cho phép áp dụng nhanh chóng các khả năng mới nổi. Đợt phát hành của DeepSeek chứng minh rằng vị thế dẫn đầu khả năng thay đổi không thể đoán trước.
Bước hành động: Triển khai các lớp trừu tượng mô hình (LiteLLM, OpenRouter, hoặc định tuyến tùy chỉnh) cho phép hoán đổi giữa các nhà cung cấp mà không cần thay đổi ứng dụng.
550 kỹ sư hiện trường của Introl hỗ trợ các tổ chức triển khai hạ tầng AI linh hoạt thích ứng với động lực cạnh tranh.[^20] Công ty xếp hạng #14 trên Inc. 5000 năm 2025 với tăng trưởng ba năm 9.594%.[^21]
Hạ tầng trải dài 257 địa điểm toàn cầu đòi hỏi khả năng thích ứng khi cảnh quan AI phát triển.[^22] Hỗ trợ chuyên nghiệp đảm bảo đầu tư hạ tầng vẫn có giá trị khi khả năng mô hình và kinh tế thay đổi.
Những điểm chính
Cho các nhà lập kế hoạch hạ tầng: - DeepSeek đạt hiệu năng cấp GPT-5 với ít hơn 11 lần tính toán so với Llama 3 405B - Tự lưu trữ mô hình tiên phong giờ yêu cầu 8-10 H100 (~$250-300K) so với phí API $50K+/tháng - Hiệu quả đào tạo quan trọng như số lượng GPU—ngân sách cho
[Nội dung bị cắt ngắn để dịch]