DeepSeek V3.2 Đạt Suy Luận Cấp Vàng IMO: AI Trung Quốc Sánh Ngang Hiệu Suất Tiên Phong
11 tháng 12 năm 2025
Cập nhật tháng 12 năm 2025: DeepSeek phát hành V3.2 và V3.2-Speciale vào ngày 1 tháng 12 năm 2025. Biến thể Speciale đạt 35/42 trên các bài toán chuẩn IMO 2025, sánh ngang khả năng suy luận của Gemini 3 Pro với chi phí suy luận thấp hơn 70%.
DeepSeek phát hành hai mô hình vào ngày 1 tháng 12 năm 2025: DeepSeek-V3.2 và DeepSeek-V3.2-Speciale.1 Biến thể Speciale đạt 35 trên 42 điểm trên các bài toán chuẩn IMO 2025, đạt được vị thế tương đương huy chương vàng và chứng minh khả năng suy luận toán học sánh ngang các hệ thống AI hàng đầu thế giới.2
Các hạn chế xuất khẩu của Mỹ giới hạn quyền truy cập của DeepSeek vào GPU NVIDIA tiên tiến. Bất chấp những ràng buộc này, công ty tiếp tục sản xuất các mô hình cạnh tranh hoặc vượt qua các lựa chọn thay thế phương Tây với chi phí thấp hơn đáng kể.3 Bản phát hành xác nhận cách tiếp cận ưu tiên hiệu quả của Trung Quốc trong phát triển AI.
Thông Số Kỹ Thuật
Cả hai mô hình V3.2 đều có 685 tỷ tham số tổng với trọng số mở theo giấy phép MIT.4 Trọng số mô hình đầy đủ yêu cầu khoảng 690GB lưu trữ. Chạy mô hình yêu cầu:
- Triển khai đa GPU: 8x H100 80GB GPU với song song tensor
- Suy luận lượng tử hóa: Lượng tử hóa INT4 giảm yêu cầu xuống 4x A100 80GB
- API đám mây: DeepSeek cung cấp suy luận được lưu trữ với giá $0.70/M token
Các mô hình hỗ trợ cửa sổ ngữ cảnh 128.000 token, cho phép phân tích tài liệu dài, cơ sở mã và bài báo nghiên cứu trong các prompt đơn lẻ.
V3.2-Speciale giới thiệu suy luận tích hợp trong việc sử dụng công cụ. Mô hình hỗ trợ cả chế độ "suy nghĩ" và "không suy nghĩ" cho các cuộc gọi công cụ, cho phép nó suy luận qua các quy trình làm việc tác nhân nhiều bước trước khi thực hiện hành động.5 Ví dụ, khi truy vấn cơ sở dữ liệu, Speciale có thể suy luận về tối ưu hóa truy vấn và giải thích kết quả trong một chuỗi suy luận đơn lẻ thay vì yêu cầu nhiều cuộc gọi API.
Quá trình huấn luyện sử dụng đường ống tạo dữ liệu tổng hợp bao gồm hơn 1.800 môi trường và hơn 85.000 hướng dẫn phức tạp.6 Dữ liệu tổng hợp giảm sự phụ thuộc vào chú thích của con người tốn kém trong khi cho phép huấn luyện trên các kịch bản khó thu thập một cách tự nhiên.
Hiệu Suất Benchmark
DeepSeek-V3.2-Speciale đạt kết quả cấp vàng trên nhiều benchmark thi đấu:7
| Benchmark | Điểm | Ngữ cảnh |
|---|---|---|
| Bài toán IMO 2025 | 35/42 điểm | Ngưỡng huy chương vàng |
| Olympic Toán Trung Quốc | Cấp vàng | Danh mục thành tích hàng đầu |
| Bài toán IOI 2025 | 492/600 điểm | Vàng, tương đương hạng 10 |
| Terminal Bench 2.0 | 46.4% | Vượt GPT-5-High (35.2%) |
Kết quả Terminal Bench 2.0 đo lường các quy trình làm việc mã hóa phức tạp bao gồm tái cấu trúc đa tệp, gỡ lỗi và tạo thử nghiệm.8 DeepSeek vượt GPT-5-High 11 điểm phần trăm trên các nhiệm vụ kỹ thuật phần mềm thực tế.
Lưu ý: Những điểm này phản ánh các bài toán benchmark theo phong cách thi đấu chính thức, không phải hiệu suất trong các sự kiện thi đấu thực tế năm 2025.
Kinh Tế Chi Phí
Giá DeepSeek V3.2 đại diện cho mức giảm 70% so với mô hình V3.1-Terminus trước đó:9
| Mô hình | Token Đầu vào | Token Đầu ra |
|---|---|---|
| DeepSeek V3.2 | $0.14/M | $0.70/M |
| V3.1-Terminus (trước) | $0.48/M | $2.40/M |
Để so sánh, giá nhà cung cấp phương Tây hiện tại:10
| Nhà cung cấp | Đầu vào | Đầu ra |
|---|---|---|
| Claude Sonnet 4 | $3.00/M | $15.00/M |
| GPT-4.5 | $2.50/M | $10.00/M |
| Gemini 3 Pro | $1.25/M | $5.00/M |
| DeepSeek V3.2 | $0.14/M | $0.70/M |
Một tổ chức xử lý 10 tỷ token đầu ra hàng tháng sẽ chi khoảng 7 triệu đô la hàng năm với DeepSeek so với 50-150 triệu đô la với các lựa chọn thay thế phương Tây.11 Khoảng cách chi phí mở rộng cho các khối lượng công việc nặng đầu ra như tạo mã và nội dung dạng dài.
Tác Động Cơ Sở Hạ Tầng
DeepSeek huấn luyện V3.2 trên GPU H800, biến thể dành riêng cho Trung Quốc với băng thông bộ nhớ giảm (2.0TB/s so với 3.35TB/s cho H100).12 Thành tựu này chứng minh rằng tối ưu hóa phần mềm có thể bù đắp cho những hạn chế phần cứng.
Các kỹ thuật hiệu quả chính:13
Kiến trúc Mixture-of-Experts (MoE): Chỉ 37 tỷ tham số được kích hoạt cho mỗi yêu cầu suy luận mặc dù có 685 tỷ tổng tham số. MoE giảm tính toán khoảng 30% so với các mô hình dày đặc tương đương.
Multi-head Latent Attention (MLA): Nén các yêu cầu bộ nhớ cache khóa-giá trị, giảm các nút thắt băng thông bộ nhớ trên phần cứng H800 bị hạn chế băng thông.
Huấn luyện độ chính xác hỗn hợp FP8: Giảm yêu cầu bộ nhớ và tăng tốc huấn luyện trên GPU kiến trúc Hopper.
Các tổ chức đánh giá cơ sở hạ tầng AI nên nhận ra rằng thành công của DeepSeek thách thức các giả định về yêu cầu tính toán cho các khả năng tiên phong. Tối ưu hóa phần mềm có thể mang lại ROI tốt hơn so với tích lũy GPU thô cho nhiều khối lượng công việc.14
Triển Khai Doanh Nghiệp
AWS, Azure và Google Cloud đều cung cấp triển khai mô hình DeepSeek, xác nhận độ tin cậy cấp doanh nghiệp.15 Khả năng sẵn có của hyperscaler loại bỏ ma sát triển khai mà nếu không sẽ hạn chế việc áp dụng các mô hình có nguồn gốc Trung Quốc.
Các tổ chức xem xét triển khai DeepSeek nên đánh giá:
- Chủ quyền dữ liệu: Trọng số mô hình là mở, nhưng việc sử dụng API định tuyến dữ liệu qua cơ sở hạ tầng DeepSeek
- Yêu cầu tuân thủ: Một số ngành được quản lý có thể hạn chế việc sử dụng mô hình Trung Quốc
- Đặc điểm hiệu suất: DeepSeek xuất sắc trong suy luận và mã hóa nhưng có thể hoạt động kém hơn trong các nhiệm vụ sáng tạo hoặc tinh tế
Bức Tranh Cạnh Tranh
Bản phát hành V3.2 đến một tuần trước khi chính quyền Trump công bố nới lỏng các hạn chế xuất khẩu H200.16 Thời điểm này nhấn mạnh nghịch lý chính sách: các kiểm soát xuất khẩu nhằm làm chậm sự phát triển AI của Trung Quốc có thể đã đẩy nhanh đổi mới bằng cách buộc phải cải thiện hiệu quả.
Các mô hình mã nguồn mở của Trung Quốc tăng từ 1.2% sử dụng toàn cầu vào cuối năm 2024 lên gần 30% vào năm 2025.17 Sự thay đổi này đại diện cho cả thành tựu công nghệ và sự gián đoạn thị trường đối với các công ty Mỹ đã giả định rằng các rào cản quy định sẽ bảo vệ lợi thế cạnh tranh.
Các công ty AI phương Tây đối mặt với áp lực phải sánh ngang hiệu quả của DeepSeek hoặc biện minh cho giá cao cấp thông qua khả năng vượt trội. Cụm phát hành tháng 11 năm 2025 (GPT-5.1, Claude Opus 4.5, Gemini 3 Pro, Grok 4.1) đã chứng minh tiến bộ tiên phong liên tục nhưng ở các mức giá cao hơn đáng kể.18
Claude Opus 4.5 dẫn đầu các benchmark mã hóa với 72.5% hiệu suất SWE-bench, trong khi Gemini 3 Pro đạt điểm Elo LMArena cao nhất từng được ghi nhận là 1501.19 Các mô hình phương Tây duy trì lợi thế về các khả năng cụ thể ngay cả khi DeepSeek thu hẹp khoảng cách mục đích chung.
Những Điểm Chính
Cho kỹ sư ML: - V3.2-Speciale đạt cấp vàng IMO (35/42 trên bài toán benchmark) - 685B tham số, ngữ cảnh 128K, trọng số mở theo giấy phép MIT - Yêu cầu 8x H100 80GB hoặc triển khai lượng tử hóa trên 4x A100 80GB
Cho người lập kế hoạch cơ sở hạ tầng: - Các mô hình Trung Quốc chứng minh khả năng tiên phong trên phần cứng bị hạn chế xuất khẩu (H800) - Tối ưu hóa phần mềm (MoE, MLA, FP8) bù đắp các ràng buộc phần cứng - Xem xét triển khai lai: mô hình phương Tây cho khả năng tối đa, DeepSeek cho tối ưu hóa chi phí
Cho lập kế hoạch chiến lược: - Các mô hình mã nguồn mở Trung Quốc đạt 30% sử dụng toàn cầu vào năm 2025 - Khả năng sẵn có của hyperscaler (AWS, Azure, GCP) xác nhận triển khai doanh nghiệp - Kiểm soát xuất khẩu có thể đã đẩy nhanh thay vì ngăn chặn tiến bộ AI của Trung Quốc
Tài Liệu Tham Khảo
Để được hỗ trợ triển khai cơ sở hạ tầng AI, liên hệ Introl.
-
DeepSeek API Docs. "DeepSeek-V3.2 Release Notes." 1 tháng 12 năm 2025. ↩
-
UNU Campus Computing Centre. "Inside DeepSeek End-of-Year AI Breakthrough." Tháng 12 năm 2025. ↩
-
Bloomberg. "DeepSeek Debuts New AI Models to Rival Google and OpenAI." 1 tháng 12 năm 2025. ↩
-
Simon Willison. "DeepSeek-V3.2 Technical Analysis." 1 tháng 12 năm 2025. ↩
-
DeepSeek API Docs. "V3.2 Tool Use with Thinking Mode." Tháng 12 năm 2025. ↩
-
Semiconductor Engineering. "DeepSeek New AI Models: V3.2 and V3.2-Speciale." Tháng 12 năm 2025. ↩
-
WinBuzzer. "New DeepSeek V3.2 Speciale Model Claims Reasoning Parity with Gemini 3 Pro." 1 tháng 12 năm 2025. ↩
-
VentureBeat. "DeepSeek drops two AI models that rival GPT-5 on coding benchmarks." Tháng 12 năm 2025. ↩
-
DeepSeek API Docs. "Pricing: V3.2 vs V3.1-Terminus." Tháng 12 năm 2025. ↩
-
Artificial Analysis. "LLM Pricing Comparison December 2025." Tháng 12 năm 2025. ↩
-
Sebastian Raschka. "A Technical Tour of the DeepSeek Models from V3 to V3.2." Tháng 12 năm 2025. ↩
-
DEV Community. "DeepSeek-V3.2 Complete Technical Analysis." Tháng 12 năm 2025. ↩
-
DeepSeek. "V3.2 Technical Report: Architecture and Training." Tháng 12 năm 2025. ↩
-
CSIS. "Chinese AI Efficiency and Infrastructure Economics." Tháng 12 năm 2025. ↩
-
AWS, Azure, Google Cloud. "DeepSeek Model Availability." Tháng 12 năm 2025. ↩
-
Semafor. "Trump allows H200 exports to China with 25% surcharge." 8 tháng 12 năm 2025. ↩
-
Stanford HAI. "2025 AI Index Report." 2025. ↩
-
Shakudo. "Top 9 Large Language Models as of December 2025." Tháng 12 năm 2025. ↩
-
OverChat. "Best AI Models 2025: Claude, Gemini, GPT Compared." Tháng 12 năm 2025. ↩