TL;DR
Mô hình V4 của DeepSeek ra mắt giữa tháng 2 năm 2026 với tổng cộng 1 nghìn tỷ tham số, cửa sổ ngữ cảnh 1 triệu token, và ba đổi mới kiến trúc—Manifold-Constrained Hyper-Connections (mHC), bộ nhớ có điều kiện Engram, và Sparse Attention—có thể định nghĩa lại kinh tế AI. Các benchmark nội bộ tuyên bố hiệu suất SWE-bench 80%+ với chi phí suy luận thấp hơn 10-40 lần so với các đối thủ phương Tây. Mô hình chạy trên dual RTX 4090s, mã nguồn mở các trọng số theo giấy phép Apache 2.0, và đại diện cho thách thức đáng tin cậy nhất của Trung Quốc đối với sự thống trị AI phương Tây kể từ cú sốc DeepSeek ban đầu.
5,6 triệu đô la.
Đó là số tiền DeepSeek được báo cáo đã chi để huấn luyện V3—một mô hình tương đương GPT-4o và Claude 3.5 Sonnet trên hầu hết các benchmark. OpenAI được báo cáo đã chi hơn $100 triệu để huấn luyện GPT-4. Khoảng cách này tiết lộ một câu hỏi cơ bản đang định hình lại kinh tế AI: Hiệu suất tiên tiến có đòi hỏi hàng tỷ đô la tính toán, hay đổi mới kiến trúc cung cấp một con đường rẻ hơn?
Câu trả lời của DeepSeek đến vào giữa tháng 2 với V4, một mô hình 1 nghìn tỷ tham số kết hợp ba đổi mới kiến trúc có thể mang lại những gì các nhà phân tích gọi là "đột phá ấn tượng" trong hiệu quả huấn luyện. Mô hình nhắm vào việc lập trình tự động—không phải tạo ra các đoạn code đơn giản, mà là quản lý toàn bộ kho phần mềm với khả năng lý luận ở cấp độ con người trên các cửa sổ ngữ cảnh triệu token.
Đối với các nhà vận hành trung tâm dữ liệu triển khai cơ sở hạ tầng GPU, những tác động này vượt ra ngoài điểm benchmark. Nếu cách tiếp cận ưu tiên hiệu quả của DeepSeek mở rộng thành công, kinh tế triển khai AI—và phần cứng cần thiết để hỗ trợ nó—sẽ đối mặt với sự gián đoạn đáng kể.
Ba Đổi Mới Kiến Trúc
DeepSeek V4 kết hợp ba công nghệ đột phá được công bố qua các bài báo nghiên cứu cuối năm 2025 và đầu năm 2026: Manifold-Constrained Hyper-Connections, bộ nhớ có điều kiện Engram, và DeepSeek Sparse Attention.
Manifold-Constrained Hyper-Connections (mHC)
Bài báo ngày 31 tháng 12 năm 2025 của DeepSeek giới thiệu mHC, một framework giải quyết các vấn đề cơ bản trong việc mở rộng quy mô các mô hình ngôn ngữ lớn. Các hyper-connection truyền thống có thể mở rộng độ rộng residual stream và cải thiện các mẫu kết nối, nhưng đồng thời làm suy yếu nguyên tắc identity mapping khiến residual networks có thể huấn luyện được—dẫn đến bất ổn định số học làm crash các lần huấn luyện quy mô lớn.
Giải pháp mHC chiếu các ma trận kết nối lên một đa tạp toán học sử dụng thuật toán Sinkhorn-Knopp, kiểm soát việc khuếch đại tín hiệu xuống 1.6x so với 3000x với các phương pháp không ràng buộc.
| Benchmark | Baseline | HC (Unconstrained) | mHC | Improvement |
|---|---|---|---|---|
| BBH | 43.8 | 48.9 | 51.0 | +7.2 points |
| DROP | 62.1 | 65.4 | 67.8 | +5.7 points |
| GSM8K | 71.2 | 74.8 | 77.3 | +6.1 points |
| MMLU | 68.4 | 71.2 | 73.6 | +5.2 points |
Kết quả thực tế: một residual stream rộng gấp 4× chỉ thêm 6.7% overhead thời gian huấn luyện. Được đồng tác giả bởi người sáng lập Liang Wenfeng, mHC cho phép "mở rộng tham số tích cực" bằng cách bỏ qua các ràng buộc bộ nhớ GPU—huấn luyện các mô hình lớn hơn trên phần cứng mà thông thường sẽ giới hạn khả năng.
Nhà Khoa học Nghiên cứu Chính của IBM Kaoutar El Maghraoui nhấn mạnh rằng kiến trúc mHC của DeepSeek có thể cách mạng hóa pretraining mô hình: "Đây là cách mở rộng AI một cách thông minh hơn thay vì chỉ làm cho nó lớn hơn."
Engram Conditional Memory
Được công bố ngày 13 tháng 1 năm 2026, Engram giới thiệu một mô-đun bộ nhớ có điều kiện đạt được việc truy xuất kiến thức thời gian không đổi bằng cách tách biệt việc lưu trữ mẫu tĩnh khỏi lý luận động. Công nghệ này hiện đại hóa các embedding N-gram cổ điển để thực hiện tra cứu O(1) cùng với backbone neural.
Engram giải quyết cái mà DeepSeek gọi là "lãng phí LLM thầm lặng"—các chu kỳ GPU bị mất vào các tra cứu tĩnh không đòi hỏi lý luận tích cực. Hệ thống sử dụng multi-head hashing để ánh xạ các ngữ cảnh nén tới các bảng embedding thông qua các hàm xác định, tránh sự bùng nổ bộ nhớ của các bảng dày đặc trong khi giảm thiểu va chạm.
Context-Aware Gating cung cấp khía cạnh "có điều kiện". Các embedding được truy xuất không được thêm một cách mù quáng vào residual stream—chúng được cổng hóa bởi trạng thái ẩn hiện tại. Nếu bộ nhớ được truy xuất mâu thuẫn với ngữ cảnh toàn cục, cổng sẽ triệt tiêu nhiễu.
Phát hiện chủ chốt của DeepSeek: tỷ lệ tối ưu là 75-80% cho tính toán và 20-25% cho bộ nhớ. MoE thuần túy (100% tính toán) tỏ ra không tối ưu.
| Metric | Without Engram | With Engram | Change |
|---|---|---|---|
| Complex Reasoning | 70% | 74% | +4 points |
| Knowledge Retrieval | 57% | 61% | +4 points |
| Needle-in-Haystack | 84.2% | 97.0% | +12.8 points |
| Training Time Impact | Baseline | +6.7% | Minimal |
Các nhà nghiên cứu đã chứng minh offload một bảng embedding 100 tỷ tham số vào DRAM hệ thống với các hình phạt throughput dưới 3%. Đối với cơ sở hạ tầng suy luận, điều này thay đổi tính toán phần cứng—bộ nhớ hệ thống băng thông cao trở nên có giá trị như FLOPS GPU thô.
DeepSeek Sparse Attention (DSA)
Đổi mới thứ ba, DeepSeek Sparse Attention, cho phép các cửa sổ ngữ cảnh triệu token trong khi giảm overhead tính toán 50% so với Transformers tiêu chuẩn.
Hệ thống sử dụng "lightning indexer" để ưu tiên các đoạn trích cụ thể từ cửa sổ ngữ cảnh, tiếp theo là "hệ thống lựa chọn token chi tiết" chọn các token cụ thể từ những đoạn trích đó để tải vào cửa sổ attention giới hạn của mô hình. Điều này cho phép hoạt động trên các phần dài của ngữ cảnh với tải máy chủ tương đối nhỏ.
Attention transformer truyền thống mở rộng theo bậc hai với độ dài chuỗi—gấp đôi độ dài ngữ cảnh sẽ tăng gấp bốn lần tính toán. Sparse attention của DeepSeek cắt giảm điều này xuống gần như mở rộng tuyến tính, tạo ra sự khác biệt giữa "có thể về mặt lý thuyết" và "khả thi về mặt kinh tế" cho các ngữ cảnh triệu token.
Thông Số Kỹ Thuật Mô Hình V4
DeepSeek V4 đại diện cho một kỳ tích kỹ thuật của kiến trúc thưa thớt, sử dụng 1 nghìn tỷ tham số tổng cộng trong khi kích hoạt khoảng 32 tỷ cho bất kỳ token nào.
| Specification | DeepSeek V4 | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|
| Total Parameters | 1 trillion | ~2 trillion (est.) | Undisclosed |
| Active Parameters | 32B | Full model | Undisclosed |
| Context Window | 1M tokens | 256K tokens | 200K tokens |
| Architecture | MoE + mHC + Engram | Dense Transformer | Dense Transformer |
| Training Cost | ~$10M (est.) | ~$500M (est.) | Undisclosed |
| API Input Cost | $0.27/1M tokens | $15/1M tokens | $15/1M tokens |
Chiến lược MoE "Top-16" được định tuyến này cho phép V4 duy trì kiến thức chuyên môn của một hệ thống cấp độ titan mà không có độ trễ tàn khốc hoặc yêu cầu phần cứng thường liên quan đến các mô hình nghìn tỷ tham số. Tác động thực tế: truy xuất hiệu quả từ các ngữ cảnh vượt quá một triệu token.
Đối với các tác vụ lập trình, điều này có nghĩa là V4 có thể tiếp nhận toàn bộ codebase cỡ vừa, hiểu các mối quan hệ import-export qua hàng chục file, và thực hiện tái cấu trúc tự động. Những người kiểm thử sớm báo cáo lý luận đa file thực sự nơi mô hình hiểu các mối quan hệ giữa các thành phần, theo dõi dependencies, và duy trì tính nhất quán qua các hoạt động tái cấu trúc quy mô lớn.
SWE-Bench: Benchmark Quyết Định
SWE-bench Verified đo khả năng của mô hình giải quyết các vấn đề GitHub trong thế giới thực—đòi hỏi hiểu code, debug, và triển khai qua các ngữ cảnh repository thực tế. Claude Opus 4.5 hiện dẫn đầu với 80.9%.
Kiểm thử nội bộ của DeepSeek được báo cáo cho thấy V4 vượt quá 80% trên SWE-bench Verified, vượt trội so với Claude 3.5 Sonnet và GPT-4o, đặc biệt trên các prompt code cực dài. Những tuyên bố này vẫn chưa được xác minh bởi kiểm thử độc lập.
| Model | SWE-bench Verified | Context Window | API Cost (Input) |
|---|---|---|---|
| Claude Opus 4.5 | 80.9% | 200K tokens | $15/1M tokens |
| GPT-5.2 | 78.2% | 256K tokens | $15/1M tokens |
| DeepSeek V4 (claimed) | 80%+ | 1M tokens | $0.27/1M tokens |
| DeepSeek V3.2 | 72.4% | 256K tokens | $0.14/1M tokens |
Nếu V4 mang lại hiệu suất như tuyên bố với chi phí như tuyên bố, đề xuất giá trị trở nên rõ ràng: khả năng lập trình tương đương với chi phí suy luận thấp hơn 10-40x.
Triển Khai Phần Cứng Tiêu Dùng
Trong một sự khởi hành đáng chú ý khỏi xu hướng cơ sở hạ tầng, DeepSeek V4 chạy trên phần cứng tiêu dùng:
- Consumer Tier: Dual RTX 4090s hoặc single RTX 5090
- Professional Tier: Single workstation-class GPU (RTX 6000 Ada)
- Enterprise Tier: Cấu hình trung tâm dữ liệu tiêu chuẩn
Nén MLA cho phép suy luận trên single RTX 4090 (24GB GDDR6X). Bằng cách batch 4 requests với KV caches chia sẻ, footprint bộ nhớ hiệu quả giảm xuống dưới 5GB mỗi request, đạt được khoảng 550 tokens/giây throughput với batch size của 4.
| Hardware Configuration | Model Capacity | Tokens/Second | Memory Required |
|---|---|---|---|
| Single RTX 4090 (24GB) | V4 32B distilled | 30-35 | 24GB VRAM + 64GB RAM |
| Dual RTX 4090 (48GB) | V4 70B distilled | 25-30 | 48GB VRAM + 128GB RAM |
| RTX 5090 (32GB) | V4 70B quantized | 40-50 | 32GB VRAM + 64GB RAM |
| 4x RTX 4090 (96GB) | V4 full weights | 15-20 | 96GB VRAM + 256GB RAM |
Để so sánh, chạy các mô hình cấp GPT-4 locally thường đòi hỏi cơ sở hạ tầng chuyên dụng có giá $50,000+. Các đổi mới hiệu quả của V4 có khả năng dân chủ hóa quyền truy cập vào khả năng nghìn tỷ tham số.
RTX 5090 được dự kiến với 32GB GDDR7 thu hẹp khoảng cách hơn nữa. Trong khi vẫn đòi hỏi offloading cho các mô hình đầy đủ, băng thông bộ nhớ nhanh hơn và kiến trúc Blackwell sẽ cho phép suy luận gần thời gian thực trên single consumer card.
Chiến Lược Mã Nguồn Mở
DeepSeek đã mở mã nguồn trọng số V4 theo giấy phép Apache 2.0, tiếp tục chiến lược phát hành khả năng tiên tiến công khai. Điều này tương phản mạnh mẽ với các đối thủ phương Tây—GPT-5, Claude Opus, và Gemini vẫn là closed-source.
| Model | Weights Available | License | Self-Hosting |
|---|---|---|---|
| DeepSeek V4 | Yes | Apache 2.0 | Full support |
| GPT-5.2 | No | Proprietary | API only |
| Claude Opus 4.5 | No | Proprietary | API only |
| Gemini Ultra | No | Proprietary | API only |
| Llama 4 | Yes | Custom license | Restricted commercial |
Trọng số mở biến đổi kinh tế triển khai:
- Triển khai on-premises: Môi trường air-gapped, tuân thủ chủ quyền dữ liệu
- Quantization: Chạy các phiên bản độ chính xác giảm trên phần cứng tiêu dùng
- Fine-tuning: Các mô hình tùy chỉnh cho nhu cầu doanh nghiệp cụ thể
- Tối ưu hóa chi phí: Tránh phí per-token cho các ứng dụng khối lượng lớn
Các tổ chức có quản trị dữ liệu nghiêm ngặt có thể chạy V4 hoàn toàn trong cơ sở hạ tầng của họ. Đối với các ngành như tài chính, chăm sóc sức khỏe, và quốc phòng, điều này loại bỏ mối quan ngại về việc gửi code độc quyền tới các API bên ngoài.
Gián Đoạn Giá API
Giá của DeepSeek đã cắt giảm đáng kể so với các đối thủ. Giá V3 hiện tại: $0.27 per million input tokens so với khoảng $15/million cho GPT-4.5 và Claude Opus.
| Provider | Model | Input (per 1M) | Output (per 1M) | Context |
|---|---|---|---|---|
| DeepSeek | V4 | $0.27 | $1.10 | 1M tokens |
| DeepSeek | V3.2 | $0.14 | $0.55 | 256K tokens |
| OpenAI | GPT-5.2 | $15.00 | $60.00 | 256K tokens |
| Anthropic | Opus 4.5 | $15.00 | $75.00 | 200K tokens |
| Gemini Pro | $3.50 | $10.50 | 128K tokens |
Một ví dụ thực tế: Ngữ cảnh 100K token có giá $5.50 trên GPT-4 so với $0.90 trên DeepSeek V3.2-Exp. Ngữ cảnh triệu token của V4 với $0.27/million input tokens làm cho các trường hợp sử dụng trước đây không thể về mặt kinh tế trở nên khả thi.
Một phân tích chi phí cho thấy cách tiếp cận hybrid sử dụng DeepSeek cho trích xuất cộng với Claude cho audit giảm chi phí API 72% trong khi cải thiện độ chính xác thực tế 12% so với GPT-5 thuần túy.
Kiểm Tra Thực Tế Cơ Sở Hạ Tầng Huấn Luyện
Mặc dù tuyên bố hiệu quả, cơ sở hạ tầng huấn luyện của DeepSeek vẫn đáng kể. Công ty được báo cáo đã huấn luyện R1 trên 50,000 GPU dòng Hopper—30,000 HGX H20 units, 10,000 H800s, và 10,000 H100s—được cung cấp thông qua nhà đầu tư High-Flyer Capital Management.
Chính quyền Trung Quốc thúc giục DeepSeek sử dụng phần cứng Huawei Ascend cho huấn luyện R2. Động thái này gặp phải hiệu suất không ổn định, kết nối chip-to-chip chậm hơn, và các giới hạn của bộ công cụ phần mềm CANN của Huawei. Mặc dù Huawei triển khai các kỹ sư tại chỗ, DeepSeek không thể hoàn thành một lần huấn luyện thành công.
Kết quả: DeepSeek quay trở lại accelerators NVIDIA cho huấn luyện R2 trong khi giữ phần cứng Huawei cho suy luận. Điều này tiết lộ cả giới hạn hiện tại của các chip nội địa Trung Quốc và cách tiếp cận thực dụng của DeepSeek—họ sẽ sử dụng bất cứ thứ gì hoạt động, bất kể áp lực chính trị.
CEO Huawei Ren Zhengfei thừa nhận rằng "Mỹ đã phóng đại thành tựu của Huawei" và các chip tốt nhất của họ vẫn còn kém một thế hệ. Tuy nhiên, các nhà quan sát ngành kỳ vọng một số mô hình ngôn ngữ lớn sẽ huấn luyện trên chip Trung Quốc vào cuối năm 2026, với xu hướng trở nên rõ ràng hơn vào năm 2027.
Tác Động Địa Chính Trị
Sự nổi lên nhanh chóng của DeepSeek báo hiệu một sự thay đổi lớn trong cạnh tranh AI toàn cầu. Việc ra mắt R1 của công ty đã kích hoạt việc bán tháo cổ phiếu công nghệ trị giá $1 nghìn tỷ vào ngày 27 tháng 1 năm 2025—bao gồm $600 tỷ chỉ riêng từ NVIDIA.
Tổng thống Trump gọi đây là "hồi chuông cảnh tỉnh" cho các công ty Mỹ. Các nhà cung cấp cloud như Alphabet, Microsoft, và Amazon—hai cái sau đã đầu tư mạnh vào OpenAI và Anthropic—hiện đối mặt với khủng hoảng giá cả.
Các mô hình áp dụng khu vực đã phân kỳ mạnh mẽ:
| Region | Adoption Level | Primary Driver |
|---|---|---|
| China | 89% market share | Cost, performance, local development |
| Global South | High/Growing | Open source, low compute requirements |
| Western Enterprise | Low/Moderate | Cost savings, on-premises deployment |
| Western Government | Banned | Security concerns, data sovereignty |
Kể từ tháng 8 năm 2025, lượt tải xuống mã nguồn mở tích lũy của các mô hình AI Trung Quốc đã vượt qua các đối thủ phương Tây—đánh dấu một sự thay đổi đáng kể trong các mô hình sử dụng AI toàn cầu. Tại Trung Quốc, DeepSeek được báo cáo nắm giữ gần 89% thị phần trong số người dùng AI.
Việc áp dụng chính phủ phương Tây vẫn còn tối thiểu. Australia và các quốc gia đồng minh đã cấm DeepSeek khỏi các thiết bị chính thức, với tới 70% doanh nghiệp Australia tích cực chặn truy cập do lo ngại an ninh dữ liệu.
Phản Ứng Cạnh Tranh
Các đối thủ phương Tây đã điều chỉnh giá cả và sản phẩm để đáp lại áp lực từ DeepSeek:
- Google: Giảm chi phí API Gemini trong suốt năm 2024 và 2025
- OpenAI: Hạ giá và phát hành o3-mini vào tháng 1 năm 2026 để cạnh tranh về hiệu quả
- Anthropic: Duy trì giá nhưng nhấn mạnh Verifiable Safety Stack cho các ngành được quy định
Có một cân nhắc chi phí ẩn: overhead xác minh. Sử dụng các mô hình rẻ thường đòi hỏi chi tiền token trên các mô hình đắt để xác minh đầu ra. Các audit cho thấy cài đặt "Mô hình Rẻ + Auditor Cao cấp" có thể tốn nhiều hơn 15% so với chỉ sử dụng GPT-5 cho các tác vụ độ phức tạp trung bình.
Đối với các doanh nghiệp trong các ngành được quy định, Verifiable Safety Stack của Claude cung cấp audit trails biện minh cho việc định giá cao. Việc thực thi EU AI Act đã làm cho tài liệu tuân thủ có giá trị như hiệu suất thô.
Tác Động Cơ Sở Hạ Tầng
Các đổi mới hiệu quả của DeepSeek không làm vô hiệu hóa nhu cầu GPU hiện tại. CapEx của Hyperscaler tiếp tục tăng trưởng, với hơn $600 tỷ được dự báo cho năm 2026. Nhưng thành phần của chi tiêu—những gì được xây dựng và cách sử dụng—có thể thay đổi.
Cách tiếp cận của Engram đối với xử lý ngữ cảnh nhấn mạnh hệ thống phân cấp bộ nhớ hơn tính toán thô. Cơ sở hạ tầng huấn luyện tương lai có thể ưu tiên bộ nhớ băng thông cao và caching hiệu quả hơn FLOPS đỉnh.
Đối với các nhà vận hành trung tâm dữ liệu, một số xu hướng nổi lên:
- Băng thông bộ nhớ trở nên quan trọng: Kỹ thuật offload DRAM của Engram chuyển workload từ bộ nhớ GPU sang RAM hệ thống
- Cơ sở hạ tầng suy luận đa dạng hóa: Triển khai cấp độ tiêu dùng cho phép cài đặt edge và on-premises
- Huấn luyện vẫn tập trung: Mặc dù có hiệu quả, huấn luyện mô hình tiên tiến vẫn đòi hỏi các cụm GPU lớn
- Kiến trúc hybrid được quan tâm: Trích xuất DeepSeek + xác minh mô hình phương Tây giảm chi phí trong khi duy trì tuân thủ
Điểm Chính
Cho Các Nhóm Cơ Sở Hạ Tầng AI:
- Triển khai phần cứng tiêu dùng của DeepSeek V4 (dual RTX 4090s) biến đổi kinh tế AI on-premises
- Kiến trúc bộ nhớ Engram chuyển ưu tiên phần cứng hướng tới DRAM băng thông cao
- Trọng số mở cho phép fine-tuning và triển khai mà không phụ thuộc API
Cho Các Nhà Ra Quyết Định Doanh Nghiệp:
- Giảm chi phí 10-40x làm cho các ứng dụng AI trước đây không kinh tế trở nên khả thi
- Mối quan ngại an ninh đòi hỏi chính sách rõ ràng về việc sử dụng mô hình Trung Quốc
- Triển khai hybrid (trích xuất DeepSeek + xác minh phương Tây) cung cấp sự cân bằng chi phí-hiệu suất
Cho Các Nhà Vận Hành Trung Tâm Dữ Liệu:
- Ngữ cảnh triệu token thay đổi profile workload và yêu cầu bộ nhớ
- Triển khai GPU tiêu dùng tạo ra nhu cầu cho cơ sở hạ tầng suy luận nhỏ hơn, phân tán
- Hiệu quả không loại bỏ nhu cầu—chúng mở rộng những gì có thể về mặt kinh tế
Về Introl
Introl cung cấp triển khai cơ sở hạ tầng GPU chuyên dụng cho các trung tâm dữ liệu AI. Với 550 kỹ sư hiện trường chuyên về HPC tại 257 địa điểm toàn cầu, Introl đã triển khai hơn 100,000 GPU—hỗ trợ mọi thứ từ các cụm huấn luyện hyperscale đến cơ sở hạ tầng suy luận edge. Cho dù các tổ chức triển khai DeepSeek, các mô hình độc quyền, hay kiến trúc hybrid, chuyên môn của Introl đảm bảo cơ sở hạ tầng AI đáng tin cậy, hiệu suất cao.