Các mô hình AI nguồn mở thu hẹp khoảng cách: DeepSeek, Qwen3 và Llama 4 giờ đây sánh ngang GPT-5
Tóm tắt
Khoảng cách hiệu năng giữa các mô hình AI nguồn mở và độc quyền đã thu hẹp từ 17,5 điểm phần trăm xuống chỉ còn 0,3% trên các benchmark quan trọng trong năm 2025. DeepSeek V3.2, Qwen3-235B và Llama 4 Scout giờ đây có thể cạnh tranh với GPT-5.2 và Claude Opus 4.5 với chi phí thấp hơn nhiều lần—cùng khả năng tự lưu trữ hoàn toàn. Đối với các doanh nghiệp đang cân nhắc giữa sự phụ thuộc API và đầu tư hạ tầng, phép tính đã thay đổi căn bản.
Chuyện gì đã xảy ra
Tháng 12 năm 2025 đánh dấu bước ngoặt trong bối cảnh mô hình AI. Các mô hình ngôn ngữ lớn nguồn mở đã đạt được hiệu năng gần ngang bằng với các hệ thống độc quyền tiên tiến nhất, chấm dứt giai đoạn nhiều năm thống trị của các mô hình đóng.
Các con số nói lên tất cả. Phân tích 94 LLM hàng đầu cho thấy các mô hình nguồn mở hiện chỉ còn cách các hệ thống độc quyền 0,3 điểm phần trăm trên MMLU—giảm từ khoảng cách 17,5 điểm chỉ một năm trước. Trên Chatbot Arena, bảng xếp hạng ưu tiên của người dùng với hơn 5 triệu lượt bình chọn, các mô hình open-weight đã thu hẹp khoảng cách từ 8% xuống 1,7% từ tháng 1 năm 2024 đến tháng 2 năm 2025. Khoảng cách đó tiếp tục thu hẹp.
Ba họ mô hình dẫn đầu làn sóng nguồn mở:
DeepSeek V3.2 ra mắt ngày 1 tháng 12 năm 2025, đạt được ngang bằng với GPT-5 trên nhiều benchmark suy luận. Kiến trúc Mixture-of-Experts của phòng thí nghiệm Trung Quốc này chỉ kích hoạt 37B trong tổng số 671B tham số cho mỗi token, cho phép đạt hiệu năng tiên tiến với chi phí phổ thông.
Qwen3-235B-A22B từ Alibaba đạt hoặc vượt GPT-4o trên hầu hết các benchmark công khai trong khi chỉ kích hoạt 22B trong tổng số 235B tham số. Bản cập nhật thinking tháng 7 năm 2025 đã đạt kết quả hàng đầu trong các mô hình suy luận nguồn mở.
Llama 4 Scout từ Meta cung cấp cửa sổ ngữ cảnh 10 triệu token—đủ để xử lý 7.500 trang trong một phiên duy nhất—trong khi chạy trên một GPU H100 duy nhất với lượng tử hóa INT4.
Các mô hình nguồn mở hiện chiếm 62,8% thị trường theo số lượng mô hình. Sự thay đổi diễn ra nhanh chóng. Hai năm trước, các mô hình độc quyền còn thống trị.
Tại sao điều này quan trọng
Đối với các doanh nghiệp xây dựng hạ tầng AI, sự hội tụ này định hình lại phép tính xây dựng hay mua.
Động lực chi phí đã đảo ngược. DeepSeek V3.2 có giá $0,26 cho mỗi triệu token đầu vào—rẻ hơn khoảng 10 lần so với GPT-5.2 Pro. Mistral Medium 3 mang lại 90% hiệu năng của Claude Sonnet 3.7 với giá $0,40 cho mỗi triệu token, rẻ hơn 8 lần so với GPT-4. Các tổ chức báo cáo ROI cao hơn 25% với các phương pháp nguồn mở so với chiến lược chỉ dùng độc quyền.
Kiểm soát dữ liệu trở nên khả thi. Tự lưu trữ giữ thông tin nhạy cảm hoàn toàn trong hạ tầng của tổ chức. Các công ty y tế có thể chạy truy vấn dữ liệu bệnh nhân tại chỗ mà không có rủi ro vi phạm HIPAA từ việc truyền dữ liệu ra bên ngoài. Các tổ chức tài chính duy trì toàn quyền kiểm soát các thuật toán giao dịch và dữ liệu khách hàng.
Tính linh hoạt triển khai mở rộng. Mistral Medium 3 chạy trên chỉ bốn GPU. Llama 4 Scout vừa với một H100 duy nhất. Các mô hình này có thể triển khai trong môi trường hybrid, trung tâm dữ liệu tại chỗ, hoặc các vị trí edge—điều không thể với các dịch vụ độc quyền chỉ qua API.
Sự phụ thuộc nhà cung cấp tan biến. Các mô hình tự lưu trữ không bị lỗi thời khi các nhà cung cấp ngừng hỗ trợ các phiên bản cũ. Các tổ chức kiểm soát lịch trình nâng cấp, duy trì tính nhất quán của mô hình, và tránh được sự biến động giá theo mức sử dụng khiến thị trường PPA ngày càng có lợi cho người bán.
Chi tiết kỹ thuật
Thông số kỹ thuật mô hình
| Mô hình | Tổng tham số | Tham số kích hoạt | Ngữ cảnh | Chi phí đầu vào/M | Chi phí đầu ra/M |
|---|---|---|---|---|---|
| DeepSeek V3.2 | 671B | 37B | 128K | $0,26 | $0,39 |
| Qwen3-235B | 235B | 22B | 256K | $0,20 | $1,20 |
| Llama 4 Scout | 109B | 17B | 10M | $0,08 | $0,30 |
| Mistral Medium 3 | — | — | 131K | $0,40 | $2,00 |
| Mistral Large 3 | 675B | 41B | 256K | — | — |
Hiệu năng benchmark
Lập trình: DeepSeek V3.2 thể hiện năng lực xuất sắc trên các tác vụ agent long-tail, tích hợp suy nghĩ trực tiếp vào việc sử dụng công cụ. Qwen3-235B đạt 74,8 trên LiveCodeBench v6. Llama 4 Scout đạt 38,1% trên LiveCodeBench, vượt qua 32,3% của GPT-4o.
Suy luận: Qwen3-235B đạt 85,7 trên AIME'24 và 81,5 trên AIME'25. Ở chế độ thinking, nó đạt 92,3 trên AIME25. DeepSeek V3.2-Speciale đạt ngang bằng Gemini-3.0-Pro và hiệu năng huy chương vàng tại IOI 2025, ICPC World Final 2025, IMO 2025 và CMO 2025.
Ngữ cảnh dài: Cửa sổ ngữ cảnh 10M của Llama 4 Scout cho phép xử lý toàn bộ tài liệu pháp lý, bộ sưu tập bài nghiên cứu, hoặc kho mã nguồn trong các phiên đơn lẻ.
Đổi mới kiến trúc
DeepSeek V3.2 giới thiệu DeepSeek Sparse Attention (DSA), đạt được sparse attention chi tiết để cải thiện đáng kể hiệu quả ngữ cảnh dài trong khi duy trì chất lượng đầu ra của mô hình.
Chế độ thinking hybrid của DeepSeek V3.1 chuyển đổi giữa suy luận chain-of-thought và trả lời trực tiếp thông qua thay đổi chat template—một mô hình phục vụ cả trường hợp sử dụng đa năng và tập trung suy luận.
Dòng Ministral của Mistral 3 cung cấp chín mô hình dense với các kích thước 3B, 8B và 14B tham số, mỗi loại có các biến thể Base, Instruct và Reasoning. Mô hình reasoning 14B đạt 85% trên AIME 2025, chạy trên một GPU duy nhất.
Yêu cầu tự lưu trữ
| Mô hình | Phần cứng tối thiểu | Khuyến nghị |
|---|---|---|
| DeepSeek V3.2 | 8x H100 80GB | 16x H100 |
| Qwen3-235B | 8x H100 80GB | 8x H200 |
| Llama 4 Scout | 1x H100 (INT4) | 2x H100 |
| Mistral Medium 3 | 4x GPU | 8x A100/H100 |
| Ministral 3 14B | 1x GPU tiêu dùng | 1x A100 |
Các công cụ như OpenLLM cho phép chạy bất kỳ mô hình nguồn mở nào dưới dạng API endpoint tương thích OpenAI chỉ với một lệnh duy nhất. Ray Serve và Hugging Face TGI đơn giản hóa việc triển khai Kubernetes.
Tiếp theo là gì
Đà phát triển nguồn mở không có dấu hiệu chậm lại. Hiệu quả huấn luyện của DeepSeek—180K giờ GPU H800 cho mỗi nghìn tỷ token—cho thấy sự lặp lại nhanh chóng sẽ tiếp tục. Bản cập nhật thinking tháng 7 năm 2025 của Qwen3 đã chứng minh rằng các cải tiến sau huấn luyện tiếp tục mở rộng quy mô.
Dự kiến Q1 2026 sẽ mang đến: - Mở rộng thêm cửa sổ ngữ cảnh vượt qua 10M token của Llama 4 Scout - Cải thiện khả năng agentic khi việc sử dụng công cụ trưởng thành - Các mô hình nhỏ hơn, hiệu quả hơn đạt hiệu năng tiên tiến hiện tại
Đối với các tổ chức vẫn đang đánh giá chiến lược chỉ dùng API, cửa sổ cho sự phụ thuộc độc quyền đang đóng lại. Với 89% tổ chức hiện đang sử dụng AI nguồn mở, câu hỏi đã chuyển từ "có nên không" sang "mô hình nào và nhanh đến mức nào."
Góc nhìn Introl
Tự lưu trữ các mô hình nguồn mở cấp tiên tiến đòi hỏi hạ tầng GPU đáng kể, hệ thống làm mát hiệu quả, và chuyên môn vận hành. 550 kỹ sư thực địa chuyên HPC của Introl triển khai và bảo trì các cụm accelerator mà các mô hình này yêu cầu. Tìm hiểu thêm về vùng phủ sóng của chúng tôi.
Xuất bản: 18 tháng 12, 2025