Phòng thí nghiệm AI Trung Quốc DeepSeek đã phát hành V3.2 vào năm 2025, và mô hình này đạt điểm 96.0% trên AIME 2025 trong khi chỉ tính phí $0.028 cho mỗi triệu input token—khoảng một phần mười chi phí của GPT-5. Công ty đã mở mã nguồn toàn bộ mô hình 671 tỷ tham số dưới giấy phép MIT, giúp hiệu suất AI tối tân trở nên khả dụng cho bất kỳ ai có đủ tài nguyên tính toán. OpenAI, Google, và Anthropic hiện đang phải đối mặt với sự cạnh tranh trực tiếp từ một mô hình có thể sánh ngang với các sản phẩm hàng đầu của họ về khả năng suy luận toán học và lập trình, đồng thời có giá thấp hơn một bậc độ lớn.
DeepSeek đạt được hiệu quả kinh tế này thông qua các đổi mới kiến trúc giúp giảm overhead tính toán mà không hy sinh chất lượng. Phòng thí nghiệm đã giới thiệu DeepSeek Sparse Attention (DSA), một hệ thống indexing tinh vi xác định các phần quan trọng của ngữ cảnh dài và bỏ qua các tính toán không cần thiết. DeepSeek cũng đã tinh chỉnh kiến trúc Mixture-of-Experts để sử dụng 256 mạng chuyên gia chuyên biệt cho mỗi layer, chỉ kích hoạt 8 mạng cho mỗi token, và loại bỏ auxiliary losses thông qua phương pháp định tuyến bias-term mới. Những lựa chọn kỹ thuật này cho phép DeepSeek huấn luyện V3 với chi phí $5.5 triệu—ít hơn một phần mười so với chi phí mà các đối thủ cạnh tranh được báo cáo—, và V3.2 được xây dựng trực tiếp trên nền tảng hiệu quả đó.
Việc phát hành này đặt ra những câu hỏi cơ bản về rào cản cạnh tranh xung quanh các mô hình tối tân đóng và liệu việc định giá cao cấp có thể tồn tại khi các lựa chọn thay thế mở cung cấp hiệu suất tương đương với chi phí thấp hơn đáng kể.
Bước Đột Phá DeepSeek-V3.2
DeepSeek-V3.2 có tổng cộng 671 tỷ tham số, nhưng kiến trúc Mixture-of-Experts chỉ kích hoạt 37 tỷ tham số cho mỗi token. Công ty đã phát hành hai phiên bản vào năm 2025: V3.2 cho triển khai chính thống và V3.2-Special cho các tác vụ suy luận tính toán cao. V3.2-Special chỉ có sẵn tạm thời đến ngày 15 tháng 12 năm 2025, trong khi V3.2 phục vụ như mô hình sản xuất chính.
Mô hình đạt được hiệu suất cấp huy chương vàng trong nhiều cuộc thi quốc tế năm 2025, bao gồm Olympic Toán học Quốc tế (IMO), Olympic Toán học Trung Quốc (CMO), Cuộc thi Lập trình Đại học Quốc tế (ICPC), và Olympic Tin học Quốc tế (IOI). DeepSeek-V3.2 đạt 96,0% trong Kỳ thi Toán học Mời gọi Hoa Kỳ 2025 (AIME), vượt qua GPT-5 High với 94,6% và bằng với Gemini 3 Pro ở 95,0%. Mô hình cũng đạt 99,2% trong Giải đấu Toán học Harvard-MIT (HMMT) 2025, so với 97,5% của Gemini 3 Pro.
So Sánh Giá Cả
ModelCached InputStandard InputOutput
DeepSeek V3.2 $0.028/M tokens $0.28/M tokens $0.42/M tokens
GPT-5 — $1.25/M tokens $10/M tokens
Một khối lượng công việc điển hình xử lý 100.000 input tokens và tạo ra 100.000 output tokens có chi phí khoảng $0.07 với DeepSeek so với $1.13 với GPT-5.
DeepSeek đã phát hành V3.2 dưới giấy phép MIT và công bố các trọng số mô hình hoàn chỉnh trên Hugging Face. Các tổ chức có thể tải xuống, sửa đổi, và triển khai mô hình cho mục đích thương mại mà không có hạn chế, cho phép triển khai cục bộ để đáp ứng các yêu cầu chủ quyền dữ liệu hoặc để fine-tuning tùy chỉnh trong các lĩnh vực chuyên biệt.
## Phân Tích Sâu Kiến Trúc
Các đổi mới kỹ thuật của DeepSeek-V3.2 tập trung vào ba lĩnh vực: sparse attention cho ngữ cảnh dài, thiết kế Mixture-of-Experts được tinh chỉnh, và cân bằng tải không sử dụng auxiliary loss. Những lựa chọn kiến trúc này phối hợp với nhau để mang lại hiệu suất tiên tiến đồng thời giảm đáng kể chi phí tính toán.
DeepSeek Sparse Attention
Các cơ chế attention transformer tiêu chuẩn tính toán mối quan hệ giữa tất cả các cặp token trong một chuỗi, dẫn đến độ phức tạp tính toán theo hàm bậc hai khi độ dài ngữ cảnh tăng. Một ngữ cảnh 128,000 token đòi hỏi khoảng 16 tỷ phép tính attention (128,000²), khiến việc xử lý ngữ cảnh dài trở nên tốn kém ngay cả với các bộ gia tốc hiện đại. DeepSeek Sparse Attention giải quyết nút thắt cổ chai tính toán bằng cách xác định những token thực sự cần attention và bỏ qua các phép tính cho các cặp ít liên quan hơn.
Hệ thống DSA duy trì một chỉ mục chi tiết theo dõi tầm quan trọng về ngữ nghĩa trong toàn bộ cửa sổ ngữ cảnh. Khi xử lý một token mới, cơ chế attention truy vấn chỉ mục để xác định các token có giá trị cao có khả năng chứa thông tin liên quan, sau đó chỉ tính toán attention đầy đủ cho những token được chọn đó. Cách tiếp cận này khác với các mẫu sparse attention cố định (có thể tập trung vào mỗi token thứ 10) bằng cách lựa chọn động các token cần thiết dựa trên nội dung ngữ nghĩa thay vì các quy tắc vị trí.
DeepSeek lần đầu giới thiệu DSA trong V3.2-Exp vào tháng 9 năm 2025 và đạt được giảm 50% chi phí tính toán cho các tác vụ ngữ cảnh dài trong khi duy trì các chỉ số chất lượng tương đương với dense attention. Phiên bản sản xuất V3.2 kế thừa những cải tiến hiệu quả này, giúp các ngữ cảnh 128,000 token trở nên khả thi về mặt kinh tế cho các ứng dụng lưu lượng cao.
Đổi mới sparse attention đặc biệt quan trọng cho việc hiểu code, phân tích tài liệu, và các cuộc hội thoại nhiều lượt, nơi thông tin liên quan có thể xuất hiện bất kỳ đâu trong một lịch sử dài. Các mô hình dense attention chịu chi phí tính toán chính xác cho mỗi token bất kể mức độ liên quan; DSA phân bổ tài nguyên tính toán cho các token thực sự ảnh hưởng đến chất lượng tạo ra.
Nền Tảng Mixture-of-Experts
DeepSeek-V3.2 triển khai kiến trúc Mixture-of-Experts với 256 mạng expert mỗi layer, tăng từ 160 expert trong V2. Mô hình kích hoạt tám expert cho mỗi token: 1–2 shared expert xử lý các mẫu phổ biến trên tất cả đầu vào, cộng 6–7 routed expert được chọn dựa trên nội dung của token. Tổng số tham số đạt 671 tỷ, nhưng chỉ 37 tỷ tham số được kích hoạt cho bất kỳ token đơn lẻ nào, giữ chi phí suy luận ở mức có thể quản lý trong khi duy trì khả năng chuyên môn hóa.
Mỗi mạng expert chuyên môn hóa thông qua quá trình huấn luyện, với các expert khác nhau phát triển năng lực trong các lĩnh vực như lập luận toán học, tạo code, viết khoa học, hoặc ngôn ngữ hội thoại. Cơ chế routing học cách gửi các token toán học đến các expert chuyên về toán, token code đến các expert lập trình, v.v., cho phép mô hình đạt hiệu suất cấp độ chuyên gia trên các tác vụ đa dạng mà không cần kích hoạt tất cả 671 tỷ tham số.
Lựa chọn kiến trúc này trực tiếp giải quyết một sự đánh đổi cơ bản trong thiết kế mô hình ngôn ngữ. Các mô hình dense kích hoạt tất cả tham số cho mọi token, cung cấp tính toán nhất quán nhưng hạn chế tổng dung lượng cho một ngân sách suy luận nhất định. Các mô hình MoE sparse duy trì dung lượng tổng khổng lồ trong khi chỉ kích hoạt một tập con tham số, cho phép chuyên môn hóa trên các lĩnh vực sẽ đòi hỏi các mô hình dense lớn một cách không thực tế.
Việc triển khai của DeepSeek dành 1–2 shared expert mỗi layer để xử lý các mẫu thường gặp trên tất cả loại đầu vào: từ phổ biến, ngữ pháp cơ bản, và các bước lập luận đơn giản. Các shared expert kích hoạt cho mọi token bất kể quyết định routing, đảm bảo mô hình duy trì năng lực cơ bản trước khi các expert chuyên biệt tinh chỉnh đầu ra. Sự kết hợp của shared và routed expert ngăn mô hình thất bại trên các đầu vào ngoài phân phối có thể không thuộc miền huấn luyện của bất kỳ expert nào.
Cân Bằng Tải Không Auxiliary Loss
Các kiến trúc Mixture-of-Experts đối mặt với thách thức cân bằng tải: cơ chế routing có thể gửi hầu hết token đến một tập con nhỏ expert, để các expert khác không được sử dụng đủ và làm thất bại mục đích của dung lượng chuyên biệt. Quá trình huấn luyện thường hội tụ trên một vài expert thống trị trừ khi hệ thống tích cực khuyến khích việc sử dụng expert cân bằng.
Các triển khai MoE tiêu chuẩn thêm các thành phần auxiliary loss vào mục tiêu huấn luyện để phạt việc sử dụng expert không cân bằng. Một auxiliary loss có thể đo lường có bao nhiêu token mỗi expert nhận được và thêm một hình phạt khi việc sử dụng trở nên lệch, khuyến khích cơ chế routing phân bố token đều hơn trên các expert. Tuy nhiên, auxiliary loss cạnh tranh với mục tiêu chính là dự đoán token tiếp theo chính xác, có thể làm giảm chất lượng mô hình để đổi lấy cân bằng tải tốt hơn.
DeepSeek-V3.2 loại bỏ hoàn toàn auxiliary loss và thay vào đó triển khai cân bằng tải thông qua một bias term trong cơ chế routing. Router tính toán điểm số ái lực giữa mỗi token và mỗi expert, sau đó thêm một bias âm nhỏ vào các expert gần đây đã nhận nhiều token. Bias term khiến các expert được sử dụng quá mức trở nên ít hấp dẫn hơn một chút cho các quyết định routing trong tương lai mà không cần một hàm loss riêng biệt xung đột với mục tiêu chất lượng.
Cách tiếp cận này cho phép DeepSeek tối ưu hóa hoàn toàn cho việc dự đoán token tiếp theo trong khi duy trì cân bằng tải hợp lý thông qua cơ chế bias. Mô hình cũng loại bỏ việc bỏ token trong quá trình huấn luyện (một kỹ thuật phổ biến nơi mô hình bỏ qua tính toán cho một số token khi dung lượng expert đầy), đảm bảo mỗi token nhận được xử lý hoàn chỉnh từ các expert được chọn của nó.
Từ V3 đến V3.2: Sự Tiến Hóa của Hiệu Suất
Bước đột phá về hiệu suất của DeepSeek bắt đầu với V3 vào tháng 12/2024, khi phòng thí nghiệm đã huấn luyện một model tiên tiến có khả năng cạnh tranh với chi phí 5,5 triệu USD sử dụng 2,788 triệu giờ GPU H800. Các đối thủ cạnh tranh được báo cáo đã chi 100 triệu USD hoặc nhiều hơn để huấn luyện các model như GPT-4, khiến việc giảm 95% chi phí của DeepSeek trở nên đáng chú ý ngay cả trước khi xem xét các tối ưu hóa bổ sung của V3.2.
DeepSeek đã đạt được hiệu suất huấn luyện V3 thông qua một số lựa chọn kỹ thuật:
-
Huấn luyện độ chính xác hỗn hợp FP8 thay vì độ chính xác FP16 hoặc BF16 mà hầu hết các đối thủ sử dụng, giảm khoảng một nửa yêu cầu băng thông bộ nhớ và cho phép kích thước batch lớn hơn
-
Thuật toán DualPipe tùy chỉnh cho pipeline parallelism giúp cải thiện việc sử dụng GPU so với các phương pháp pipeline tiêu chuẩn
-
14,8 nghìn tỷ training token (ít hơn 15+ nghìn tỷ token được sử dụng cho các model như Llama 3.1 405B) với mục tiêu dự đoán đa token giúp cải thiện hiệu suất mẫu
Nền tảng V3 đã mang lại hiệu suất cạnh tranh với chi phí huấn luyện thấp hơn đáng kể, nhưng model sử dụng dense attention tiêu chuẩn cho ngữ cảnh dài. DeepSeek đã phát hành V3.2-Exp vào tháng 9/2025 như một phiên bản thử nghiệm giới thiệu DeepSeek Sparse Attention. Bản phát hành thử nghiệm đã xác thực rằng sparse attention có thể giảm 50% chi phí xử lý ngữ cảnh dài mà không có sự suy giảm chất lượng có thể đo lường được trên các benchmark quan trọng.
DeepSeek đã ra mắt V3.2 và V3.2-Special vào năm 2025 như những model sẵn sàng cho sản xuất, dựa trên các thử nghiệm V3.2-Exp. V3.2 nhắm đến triển khai chủ đạo qua các tình huống API và self-hosted, trong khi V3.2-Specialized tập trung vào các tác vụ lý luận tính toán cao như các bài toán thi đấu toán học và thử thách lập trình phức tạp.
Sự tiến hóa từ V3 đến V3.2 thể hiện sự tập trung của DeepSeek vào hiệu suất huấn luyện và suy luận thay vì tối đa hóa benchmark thuần túy. Phòng thí nghiệm đã huấn luyện V3 với chi phí bằng một phần hai mươi so với các model tương đương, sau đó giới thiệu các cải tiến kiến trúc trong V3.2 giúp giảm khoảng một nửa chi phí suy luận cho các tác vụ ngữ cảnh dài. Các hiệu suất kép tổng hợp cho phép DeepSeek cắt giảm giá cả của đối thủ cạnh tranh theo bậc độ lớn trong khi duy trì đủ biên lợi nhuận để vận hành dịch vụ API thương mại.
Phân Tích Hiệu Suất Benchmark
DeepSeek-V3.2 đạt được kết quả mạnh mẽ trên các benchmark lập luận toán học và lập trình trong khi thể hiện hiệu suất cạnh tranh nhưng không dẫn đầu ở các tác vụ kiến thức tổng quát. Hồ sơ hiệu suất này khiến V3.2 đặc biệt phù hợp cho các lĩnh vực kỹ thuật, nhưng cho thấy người dùng có thể ưa thích các đối thủ cạnh tranh cho việc ghi nhớ thông tin thực tế rộng rãi.
Toán Học và Lập Luận
BenchmarkDeepSeek V3.2GPT-5 HighGemini 3 Pro
AIME 2025 96.0% 94.6% 95.0%
HMMT 2025 99.2% — 97.5%
IMO 2025 Gold Medal — —
CMO 2025 Gold Medal — —
Putnam Gold Medal — —
DeepSeek-V3.2 đạt điểm 96.0% trên AIME 2025, vượt qua 94.6% của GPT-5 High và ngang bằng với 95.0% của Gemini 3 Pro. Model đã giải đúng gần như tất cả các bài toán trong một kỳ thi được thiết kế để xác định những học sinh trung học xuất sắc nhất về toán học tại Hoa Kỳ, chứng minh hiệu suất mạnh trong lập luận đại số và hình học đa bước.
Model đạt 99.2% trên HMMT 2025, vượt qua 97.5% của Gemini 3 Pro. Các bài toán HMMT yêu cầu các kỹ thuật toán học nâng cao vượt ra ngoài chương trình giảng dạy trung học thông thường, bao gồm lý thuyết số phức, tổ hợp học và lập luận dựa trên chứng minh. Hiệu suất gần như hoàn hảo của DeepSeek-V3.2 cho thấy model xử lý toán học cấp đại học một cách đáng tin cậy.
Hiệu Suất Lập Trình
BenchmarkDeepSeek V3.2GPT-5Gemini 3 Pro
LiveCodeBench 83.3% 84.5% 90.7%
SWE Multilingual 70.2% 55.3% —
SWE Verified 73.1% — 76.2%
Codeforces Rating 2701 (Grandmaster) — —
DeepSeek-V3.2 đạt 83.3% trên LiveCodeBench, kém sau 84.5% của GPT-5 và 90.7% của Gemini 3 Pro. LiveCodeBench đánh giá việc tạo mã trên các bài toán lập trình được công bố gần đây, kiểm tra liệu các model có thể áp dụng quá trình training của chúng vào các thử thách mới thay vì ghi nhớ các giải pháp cho những bài toán benchmark phổ biến.
DeepSeek-V3.2 đạt điểm 70.2% trên SWE Multilingual, vượt trội đáng kể so với 55.3% của GPT-5. SWE Multilingual kiểm tra khả năng của model trong việc sửa đổi các codebase hiện có trên nhiều ngôn ngữ lập trình, yêu cầu hiểu biết về cấu trúc mã, các thành ngữ đặc trưng của ngôn ngữ và các mẫu refactoring. Lợi thế 15 điểm phần trăm của DeepSeek so với GPT-5 cho thấy hiệu suất mạnh trong các tác vụ hiểu và sửa đổi mã.
DeepSeek-V3.2 đạt rating Codeforces là 2701, đưa model vào tầng Grandmaster. Rating 2701 vượt qua 99.8% lập trình viên cạnh tranh con người và cho thấy khả năng lập trình ở cấp độ chuyên gia.
Kiến Thức Tổng Quát và Đánh Giá Rộng Rãi
DeepSeek-V3.2 đạt điểm 30.6% trên Humanity's Last Exam, kém sau 37.7% của Gemini 3 Pro. Humanity's Last Exam cố ý kiểm tra các giới hạn của khả năng AI hiện tại với các câu hỏi bao trùm các câu đố khó hiểu, lập luận sáng tạo và chuyên môn trong các lĩnh vực như lịch sử nghệ thuật, âm nhạc cổ điển và kiến thức khoa học chuyên môn. Khoảng cách 7 điểm cho thấy Gemini 3 Pro duy trì kiến thức thực tế rộng rãi hơn, đặc biệt trong các lĩnh vực phi kỹ thuật.
Mô hình hiệu suất qua các benchmark cho thấy vị thế của DeepSeek-V3.2: model xuất sắc trong lập luận kỹ thuật chính xác về toán học và lập trình trong khi thể hiện hiệu suất cạnh tranh nhưng không áp đảo ở các tác vụ kiến thức tổng quát.
## Kinh tế học: Lợi thế chi phí 10–25×
Cấu trúc giá của DeepSeek-V3.2 mang lại tiết kiệm chi phí đáng kể so với các model tiên tiến cạnh tranh, với lợi thế thay đổi dựa trên đặc điểm khối lượng công việc và việc sử dụng cache.
So sánh giá API
DeepSeek tính phí $0.028 cho mỗi triệu token đầu vào khi phục vụ từ cache, $0.28 cho mỗi triệu token đầu vào khi cache miss, và $0.42 cho mỗi triệu token đầu ra. Giá token đầu vào được cache áp dụng khi model đã xử lý gần đây context tương tự, cho phép DeepSeek tái sử dụng các tính toán trước đó thay vì xử lý token từ đầu.
OpenAI tính phí $1.25 cho mỗi triệu token đầu vào và $10 cho mỗi triệu token đầu ra cho GPT-5, không có giá cache khác biệt.
Ví dụ: 100K token đầu vào + 100K token đầu ra
Model Chi phí
DeepSeek V3.2 (50% cache) $0.070
GPT-5 $1.125
GPT-5-mini $0.225
Gemini 3 Pro (ước tính) $1.10–1.30
Claude 4.5 Sonnet (ước tính) $1.30–1.80
DeepSeek mang lại khoảng 16× tiết kiệm chi phí so với GPT-5 cho khối lượng công việc cân bằng đọc-ghi.
Ví dụ: Khối lượng công việc nặng cache (1M đầu vào @ 80% cache + 200K đầu ra)
Model Chi phí
DeepSeek V3.2 $0.106
GPT-5 $3.25
GPT-5-mini $0.65
Lợi thế 31× của DeepSeek so với GPT-5 trên khối lượng công việc nặng cache khiến model này đặc biệt hấp dẫn cho các ứng dụng xử lý lặp lại các context tương tự.
Đổi mới chi phí huấn luyện
DeepSeek đã huấn luyện V3 với $5.5 triệu sử dụng 2.788 triệu giờ H800 GPU, so với chi phí huấn luyện được báo cáo vượt quá $100 triệu cho các model như GPT-4. Tính toán chi phí giả định $2 mỗi giờ H800 GPU, phản ánh giá cloud điển hình cho công suất dự trữ khối lượng lớn.
Chi phí huấn luyện $5.5 triệu tạo ra kinh tế học hoàn toàn khác biệt cho việc phát triển model. Các tổ chức huấn luyện model cạnh tranh dưới $10 triệu có thể lặp lại nhanh chóng, thử nghiệm với kiến trúc mới và hấp thụ các lần huấn luyện thất bại thỉnh thoảng mà không có rủi ro tài chính tồn tại. Các phòng thí nghiệm chi tiêu $100+ triệu cho mỗi lần huấn luyện phải chịu áp lực đáng kể để tối đa hóa điểm benchmark ở lần thử đầu tiên, có thể cản trở việc thử nghiệm kiến trúc.
Tác động kinh tế đến triển khai
Lợi thế chi phí 10–25× thay đổi kinh tế học triển khai cho các ứng dụng khối lượng lớn:
Ví dụ: Ứng dụng dịch vụ khách hàng xử lý 10B token/tháng
Model Chi phí hàng tháng Chênh lệch hàng năm
DeepSeek V3.2 $2,800 —
GPT-5 $12,500–15,000 $116,000–146,000
Kinh tế học này cũng cho phép các danh mục ứng dụng hoàn toàn mới vốn không kinh tế ở mức giá GPT-5: phân tích code nền chạy liên tục trên các repository lớn, tóm tắt tài liệu chủ động cho cơ sở tri thức, hoặc trả lời truy vấn suy đoán trở nên khả thi ở mức giá của DeepSeek. Cấu trúc chi phí chuyển AI từ tính năng cao cấp yêu cầu người dùng gọi rõ ràng thành khả năng môi trường chạy liên tục ở nền.
## Tác động của mô hình mã nguồn mở
DeepSeek đã phát hành V3.2 dưới giấy phép MIT, cung cấp quyền truy cập không hạn chế vào các trọng số mô hình và cho phép sử dụng thương mại, chỉnh sửa và tái phân phối. Quyết định cấp phép này làm cho hiệu suất AI tầm cỡ hàng đầu trở nên khả dụng cho bất kỳ tổ chức nào có đủ cơ sở hạ tầng suy luận, thay đổi căn bản động lực cạnh tranh trong ngành AI.
Điều khoản giấy phép và tính khả dụng
Giấy phép MIT đặt ra những hạn chế tối thiểu: người dùng phải bảo tồn các thông báo bản quyền và tuyên bố từ chối trách nhiệm, nhưng không phải đối mặt với bất kỳ hạn chế nào về triển khai thương mại, chỉnh sửa độc quyền, hoặc tái phân phối. Các tổ chức có thể tải xuống các trọng số mô hình 671 tỷ tham số của V3.2 từ Hugging Face và triển khai chúng trên cơ sở hạ tầng nội bộ mà không cần phí giấy phép liên tục, chia sẻ doanh thu, hoặc hạn chế sử dụng.
Giấy phép cho phép tinh chỉnh V3.2 trên các tập dữ liệu độc quyền để tạo ra các biến thể chuyên biệt cho các lĩnh vực như phân tích pháp lý, lý luận y tế, hoặc mô hình hóa tài chính. Các tổ chức có thể giữ bí mật các trọng số đã được tinh chỉnh thay vì công bố chúng công khai, cho phép tạo ra sự khác biệt cạnh tranh thông qua việc thích ứng lĩnh vực.
Dân chủ hóa AI hàng đầu
Việc phát hành của DeepSeek làm cho hiệu suất cạnh tranh với GPT-5 trở nên khả dụng cho các tổ chức trước đây bị loại trừ khỏi khả năng AI hàng đầu:
-
Startup: Một startup được tài trợ tốt có thể triển khai V3.2 trên cơ sở hạ tầng GPU thuê với chi phí khoảng $20,000–50,000 hàng tháng
-
Nhà nghiên cứu học thuật: Có thể chạy V3.2 tại chỗ với chi phí cơ sở hạ tầng một lần thay vì trả phí theo token sẽ vượt quá hầu hết ngân sách tài trợ
-
Các ngành được quy định: Nhà cung cấp chăm sóc sức khỏe, tổ chức tài chính và các cơ quan chính phủ có thể triển khai hoàn toàn tại chỗ, xử lý thông tin nhạy cảm mà không cần gửi dữ liệu đến các API bên ngoài
Áp lực lên kinh tế mô hình đóng
Việc phát hành mã nguồn mở cạnh tranh của DeepSeek buộc các nhà cung cấp mô hình đóng phải biện minh cho việc định giá cao cấp của họ. OpenAI tính phí cao hơn 10–25× so với DeepSeek cho hiệu suất tương đương, đòi hỏi khách hàng phải đánh giá các yếu tố vượt ra ngoài các chỉ số khả năng thô. Các lý do biện minh tiềm năng bao gồm hỗ trợ khách hàng vượt trội, công cụ tích hợp tốt hơn, hệ sinh thái trưởng thành hơn, hoặc các biện pháp an toàn mạnh mẽ hơn—nhưng sự chênh lệch chi phí đòi hỏi những lợi thế định tính đáng kể để vượt qua.
Áp lực định giá tăng cường khi nhiều tổ chức hơn có được chuyên môn trong việc triển khai và vận hành các mô hình mở. Sự phức tạp của cơ sở hạ tầng hiện tại cung cấp một rào cản bảo vệ cho các API đóng; nhiều đội nhóm thích trả phí cao cấp để tránh việc quản lý các cluster GPU, xử lý lượng tử hóa mô hình, và gỡ lỗi các vấn đề suy luận. Tuy nhiên, những cải tiến trong công cụ và sự quen thuộc ngày càng tăng của kỹ sư với việc triển khai mô hình mở dần dần xói mòn các lợi thế vận hành của các dịch vụ chỉ có API.
## Ưu Điểm Triển Khai Production
Các đặc điểm kỹ thuật và tính khả dụng mở của DeepSeek-V3.2 tạo ra nhiều ưu điểm cho triển khai production vượt ra ngoài việc tiết kiệm chi phí thô.
Hiệu Quả Context Dài
DeepSeek-V3.2 hỗ trợ context 128,000 token và xử lý các đầu vào dài một cách hiệu quả thông qua DeepSeek Sparse Attention. Cơ chế sparse attention giảm chi phí tính toán khoảng 50% trong context dài so với dense attention, giúp việc xử lý 128K token trở nên khả thi về mặt kinh tế ngay cả đối với các ứng dụng có khối lượng cao.
Khả năng context mở rộng cho phép các ứng dụng vẫn không thực tế với các model cung cấp cửa sổ ngắn hơn:
-
Hiểu code: Toàn bộ repository (thường 50,000–100,000 token cho các dự án cỡ trung) vừa vặn trong một context V3.2
-
Phân tích tài liệu: Nhiều bài báo hoặc báo cáo đầy đủ mà không cần chiến lược chunking
-
Hội thoại nhiều lượt: Bảo toàn lịch sử hoàn chỉnh mà không cắt bỏ các trao đổi đầu tiên
Scaling Hiệu Quả Chi Phí
Lợi thế giá 10–25× của DeepSeek so với GPT-5 cho phép các ứng dụng scale tới cơ sở người dùng lớn hơn hoặc khối lượng cao hơn trên mỗi người dùng mà không tăng chi phí tỷ lệ thuận. Một ứng dụng có thể chi trả cho 1,000 query GPT-5 trên mỗi người dùng mỗi ngày với mức giá hiện tại, nhưng có thể hỗ trợ 10,000–25,000 query trên mỗi người dùng mỗi ngày với chi phí tương đương khi sử dụng DeepSeek.
Hiệu quả chi phí đặc biệt có lợi cho agentic workflows, nơi các language model thực hiện nhiều tool call, tự phê bình, và cải tiến lặp đi lặp lại cho một yêu cầu người dùng duy nhất. Một agent có thể tiêu thụ 100,000–500,000 token để xử lý một truy vấn phức tạp, bao gồm nghiên cứu, lập kế hoạch, thực thi, và xác minh. Mức giá của DeepSeek làm cho các hệ thống agentic tinh vi trở nên khả thi về mặt kinh tế cho các ứng dụng mainstream.
Tính Linh Hoạt Self-Hosting
Các tổ chức có thể triển khai V3.2 trên hạ tầng nội bộ, giành được quyền kiểm soát hoàn toàn đối với xử lý dữ liệu, hành vi model, và chi phí vận hành. Self-hosting loại bỏ lo ngại về độ tin cậy của API provider, rate limiting, hoặc thay đổi chính sách có thể làm gián đoạn dịch vụ.
Triển khai self-hosted cho phép các chỉnh sửa tùy chỉnh không thể thực hiện với các dịch vụ chỉ có API:
-
Fine-tune trên các dataset độc quyền
-
Điều chỉnh định dạng output để phù hợp với tiêu chuẩn nội bộ
-
Chỉnh sửa safety filter cho các context chuyên biệt
-
Tích hợp chặt chẽ với hệ thống nội bộ
Yêu cầu phần cứng cho triển khai V3.2 phụ thuộc vào nhu cầu throughput và khả năng chịu đựng quantization:
| Precision | Memory Required | GPU Configuration |
|---|---|---|
| Full FP16 | ~1.3TB | 8–16 H100/A100 (80GB) |
| 8-bit quantized | ~670GB | 4–8 H100/A100 (80GB) |
| 4-bit quantized | ~335GB | 2–4 H100/A100 (80GB) |
| ## ## Điểm Mạnh vs. Hạn Chế | ||
| Hiểu rõ profile hiệu suất của DeepSeek-V3.2 giúp các tổ chức lựa chọn model phù hợp cho các trường hợp sử dụng của họ. |
Lĩnh Vực DeepSeek Xuất Sắc
-
Suy luận toán học: 96.0% AIME, 99.2% HMMT, huy chương vàng tại IMO/CMO/Putnam thể hiện khả năng hàng đầu
-
Phân tích và tái cấu trúc code: 70.2% SWE Multilingual vượt trội đáng kể so với 55.3% của GPT-5
-
Lập trình thi đấu: Rating Codeforces 2701 (tier Grandmaster, vượt 99.8% con người)
-
Hiệu quả chi phí: Lợi thế giá 10–25× cho phép các trường hợp sử dụng trước đây không khả thi
-
Context dài: Giảm 50% chi phí thông qua sparse attention cho input 128K
-
Tính khả dụng mở: Giấy phép MIT cho phép tùy chỉnh, tự hosting và kiểm soát dữ liệu hoàn toàn
Hạn Chế Hiện Tại
-
Độ rộng kiến thức tổng quát: 30.6% trên Humanity's Last Exam so với 37.7% của Gemini
-
Tạo code mới: 90.7% LiveCodeBench của Gemini 3 Pro vượt 83.3% của V3.2
-
Độ trưởng thành hệ sinh thái: GPT-4/5 có tooling, framework và tích hợp bên thứ ba phong phú
-
Tối ưu hóa inference: Các lựa chọn thay thế trưởng thành hơn có thể đạt throughput tốt hơn ban đầu
-
Độ phức tạp self-hosting: Yêu cầu chuyên môn hạ tầng GPU và quy trình vận hành
Khuyến Nghị Trường Hợp Sử Dụng
Ưu tiên DeepSeek-V3.2 cho:
-
Ứng dụng suy luận toán học yêu cầu độ chính xác cao
-
Phân tích, tái cấu trúc và hiểu code trên codebase lớn
-
Triển khai API khối lượng lớn nơi chi phí định hướng quyết định kiến trúc
-
Workload xử lý batch với tỷ lệ cache hit cao
-
Ứng dụng yêu cầu chủ quyền dữ liệu thông qua triển khai on-premises
-
Dự án nghiên cứu cần truy cập model rộng rãi mà không có chi phí API cấm đoán
Cân nhắc các lựa chọn thay thế khi:
-
Kiến thức tổng quát rộng trên các domain đa dạng định hướng chất lượng ứng dụng.
-
Độ trưởng thành hệ sinh thái và tích hợp tooling phong phú biện minh cho giá cao hơn.
-
Chất lượng tạo code tối đa cho các thách thức lập trình mới quan trọng hơn chi phí.
-
Sự đơn giản vận hành và hỗ trợ nhà cung cấp vượt trội hơn cân nhắc chi phí.
-
Ứng dụng yêu cầu các thuộc tính an toàn chuyên biệt hoặc lọc nội dung.
## Bối Cảnh Cạnh Tranh
Việc phát hành DeepSeek-V3.2 làm gia tăng cạnh tranh trong thị trường AI tiên tiến bằng cách cung cấp một giải pháp thay thế mở và chi phí thấp cho các dịch vụ đóng và cao cấp.
DeepSeek vs. GPT-5
| Khía cạnh | DeepSeek V3.2 | GPT-5 |
| AIME 2025 | 96.0% | 94.6% |
| LiveCodeBench | 83.3% | 84.5% |
| Chi phí | Rẻ hơn 10–25 lần | Cao cấp |
| Khả năng truy cập | Open weights, MIT | Chỉ API |
| Hệ sinh thái | Đang phát triển | Trưởng thành |
Các tổ chức nên chọn GPT-5 khi việc tích hợp hệ sinh thái, hỗ trợ từ nhà cung cấp và sự đơn giản trong vận hành biện minh cho chi phí cao hơn 10–25 lần. Các tổ chức nên chọn DeepSeek-V3.2 khi hiệu quả chi phí, tính linh hoạt tùy chỉnh hoặc yêu cầu chủ quyền dữ liệu quan trọng hơn các lợi thế hệ sinh thái của GPT-5.
DeepSeek vs. Gemini 3 Pro
| Khía cạnh | DeepSeek V3.2 | Gemini 3 Pro |
| AIME 2025 | 96.0% | 95.0% |
| HMMT 2025 | 99.2% | 97.5% |
| LiveCodeBench | 83.3% | 90.7% |
| Humanity's Last Exam | 30.6% | 37.7% |
| Chi phí | Rẻ hơn 10–20 lần | Cao cấp |
Các ứng dụng nhấn mạnh tính chính xác toán học, lý luận kỹ thuật hoặc hiểu biết về code phù hợp với điểm mạnh của DeepSeek, trong khi những ứng dụng yêu cầu kiến thức tổng quát rộng lớn hoặc tạo code tiên tiến có thể đạt kết quả tốt hơn với Gemini.
DeepSeek vs. Claude 4
| Khía cạnh | DeepSeek V3.2 | Claude 4.5 Sonnet |
| Context window | 128K | 200K |
| Khả năng lý luận | Tương đương | Tương đương |
| Chi phí | Rẻ hơn 13–18 lần | Cao cấp |
| Chất lượng hội thoại | Tốt | Tối ưu cho tính hữu ích |
Các tổ chức ưu tiên chất lượng đầu ra và dòng chảy hội thoại tự nhiên có thể thích việc Claude được huấn luyện cẩn thận cho các tương tác hữu ích, vô hại và trung thực. Các tổ chức ưu tiên tính chính xác kỹ thuật và hiệu quả chi phí sẽ thấy rằng DeepSeek mang lại khả năng lý luận tương đương với giá thành thấp hơn đáng kể.
Tóm Tắt Định Vị Thị Trường
DeepSeek-V3.2 thiết lập một vị thế hướng đến giá trị trong thị trường AI tiên tiến: hiệu suất cạnh tranh với chi phí thấp hơn 10–25 lần so với các giải pháp thay thế đóng. Định vị này tạo áp lực trên toàn thị trường bằng cách buộc các nhà cung cấp đóng phải biện minh cho mức giá cao cấp thông qua lợi thế hệ sinh thái, chất lượng hỗ trợ hoặc khoảng cách hiệu suất có ý nghĩa.
Thị trường dường như đang hướng tới sự phân khúc lớn hơn, với các dịch vụ cao cấp đóng cạnh tranh về chất lượng và dễ sử dụng, trong khi các giải pháp thay thế mở cạnh tranh về chi phí và tính linh hoạt.
## Cân nhắc về Hạ tầng
Triển khai DeepSeek-V3.2 hiệu quả đòi hỏi phải xem xét cẩn thận các yêu cầu về phần cứng, phương pháp vận hành và mô hình tích hợp.
Các Lựa chọn Triển khai
DeepSeek API cung cấp con đường triển khai đơn giản nhất. Các tổ chức có thể tích hợp V3.2 thông qua các REST API tiêu chuẩn mà không cần quản lý hạ tầng. Các nhóm thiếu chuyên môn về GPU hoặc các tổ chức có khối lượng sử dụng vừa phải thường thấy rằng API chính thức mang lại hiệu quả kinh tế và sự đơn giản trong vận hành tối ưu.
Triển khai cloud tự quản lý cân bằng giữa việc kiểm soát và hạ tầng được quản lý. Các tổ chức có thể triển khai V3.2 trên các instance GPU cloud từ AWS, Google Cloud, hoặc Azure. Triển khai cloud thường chi phí $20,000–50,000 mỗi tháng và trở nên cạnh tranh về mặt chi phí với DeepSeek API ở mức 100–300 tỷ token hàng tháng.
Triển khai tại chỗ cung cấp khả năng kiểm soát tối đa và chủ quyền dữ liệu. Đòi hỏi đầu tư vốn ban đầu đáng kể ($300,000–800,000 cho một cụm GPU sẵn sàng sản xuất) cộng với các chi phí vận hành liên tục. Có ý nghĩa kinh tế đối với các tổ chức đã có hạ tầng GPU, yêu cầu tuân thủ quy định, hoặc khối lượng sử dụng cực cao.
Phương pháp hybrid kết hợp nhiều chiến lược—sử dụng API cho lưu lượng tiêu chuẩn trong khi chạy inference tại chỗ cho dữ liệu nhạy cảm.
Mô hình Tích hợp
-
Tích hợp API-first: REST API tiêu chuẩn sử dụng các mô hình request-response quen thuộc với các backend developer
-
Triển khai local cho dữ liệu nhạy cảm: Xử lý thông tin bảo mật mà không cần gọi API bên ngoài
-
Tối ưu hóa batch processing: Cấu trúc workload để tối đa hóa tỷ lệ cache hit
-
Chiến lược sử dụng cache: Xác định các context thường được sử dụng và cấu trúc request để tận dụng caching (có thể giảm chi phí 50–70%)
Chuyên môn Vận hành
Triển khai hạ tầng GPU quy mô sản xuất đòi hỏi chuyên môn chuyên biệt về high-performance computing, tối ưu hóa model, và debug hệ thống inference. Các tổ chức phải xử lý việc cập nhật driver, quản lý nhiệt, lỗi phần cứng, quantization model, tối ưu hóa batch processing, và giám sát hiệu suất.
Đối với các tổ chức đang cân nhắc triển khai quy mô lớn, việc hợp tác với các nhà cung cấp hạ tầng chuyên biệt có thể xử lý độ phức tạp vận hành trong khi vẫn thu được lợi ích về chi phí của việc tự hosting.
## Nhìn về Tương Lai
Việc ra mắt DeepSeek-V3.2 đánh dấu một khoảnh khắc quan trọng trong quá trình phát triển của ngành AI, nhưng công nghệ vẫn tiếp tục tiến bộ một cách nhanh chóng.
Phát Triển Mô Hình
DeepSeek tiếp tục cải tiến V3.2 và phát triển các phiên bản tương lai. Đột phá về chi phí huấn luyện được thể hiện bởi V3 ($5.5M so với $100M+ của các đối thủ) cho thấy vẫn còn nhiều dư địa đáng kể để tiếp tục cải thiện hiệu quả. Mỗi cải tiến về hiệu quả sẽ tích lũy với những cải tiến trước đó, có khả năng mở rộng lợi thế chi phí của DeepSeek so với các đối thủ closed.
Fine-tuning cộng đồng có thể sẽ tạo ra các biến thể V3.2 chuyên biệt được tối ưu cho các lĩnh vực cụ thể—y tế, pháp lý, khoa học, hoặc code repositories—tạo ra các mô hình chuyên gia mà các nhà cung cấp đa mục đích không có.
Tác Động Ngành Đến Giá Cả
Lợi thế giá cả 10–25× của DeepSeek buộc các nhà cung cấp closed phải chứng minh cho vị trí cao cấp hoặc giảm giá. Các nhà cung cấp closed có thể:
-
Phân khúc thị trường rõ ràng hơn với các gói Premium và gói chi phí thấp hơn.
-
Nhấn mạnh các yếu tố phân biệt định tính (hệ sinh thái, an toàn, hỗ trợ)
-
Tăng tốc phát triển năng lực để duy trì khoảng cách về hiệu suất.
Áp lực giá cả có vẻ không thể tránh khỏi. Sự tồn tại của các lựa chọn thay thế open đáng tin cậy với chi phí thấp hơn 10–25× thay đổi căn bản mức độ sẵn sàng trả giá cao của khách hàng cho những cải tiến chất lượng nhỏ.
Gia Tốc Tiến Bộ Open Source
Việc ra mắt open cấp độ frontier của DeepSeek chứng minh rằng phát triển open có thể sánh ngang với nghiên cứu closed về cả khả năng và hiệu quả. Sự xác nhận này khuyến khích đầu tư bổ sung vào nghiên cứu AI open.
Giấy phép MIT cho phép đóng góp cộng đồng giúp tăng tốc tiến bộ vượt quá tốc độ phát triển nội bộ của DeepSeek. Các engine inference được tối ưu, kỹ thuật quantization, framework fine-tuning, và công cụ deployment xuất hiện từ nỗ lực cộng đồng phân tán.
Các mô hình frontier open cũng cho phép nghiên cứu an toàn không thể thực hiện với các lựa chọn thay thế closed. Các nhà khoa học có thể nghiên cứu biểu diễn nội bộ, kiểm tra toàn diện các tính chất an toàn, đo lường bias một cách có hệ thống, và phân tích các chế độ lỗi mà không phụ thuộc vào truy cập API.
Ý Nghĩa cho Cơ Sở Hạ Tầng AI
Đột phá hiệu quả của DeepSeek thay đổi việc lập kế hoạch cơ sở hạ tầng cho triển khai AI. Các tổ chức trước đây cho rằng AI frontier chỉ yêu cầu truy cập API độc quyền giờ đây phải đối mặt với các lựa chọn self-hosting khả thi.
Các nhà sản xuất phần cứng đối mặt với nhu cầu tăng cao cho các accelerator được tối ưu cho inference. Chuyên môn cần thiết để triển khai cơ sở hạ tầng AI sản xuất trở nên ngày càng có giá trị khi nhiều tổ chức theo đuổi chiến lược self-hosting.
## Kết luận
DeepSeek-V3.2 mang lại hiệu suất AI hàng đầu với chi phí thấp hơn 10–25× so với các giải pháp đóng, được hỗ trợ bởi sự kết hợp giữa các đổi mới kiến trúc và đột phá hiệu quả huấn luyện. Model này có hiệu suất ngang bằng hoặc vượt trội so với GPT-5 và Gemini 3 Pro trên các benchmark lý luận toán học, đồng thời giảm giá API của họ xuống một bậc độ lớn, tất cả trong khi vẫn duy trì tính khả dụng mở hoàn toàn dưới giấy phép MIT.
Những thành tựu kỹ thuật chính:
-
DeepSeek Sparse Attention cho xử lý ngữ cảnh dài hiệu quả (giảm 50% chi phí)
-
Kiến trúc Mixture-of-Experts được tinh chỉnh với 256 expert được định tuyến (tổng cộng 671B, 37B hoạt động mỗi token)
-
Cân bằng tải không có auxiliary-loss tối ưu hóa thuần túy cho chất lượng sinh ra
-
V3 được huấn luyện với 5,5 triệu đô la sử dụng FP8 mixed precision và các kỹ thuật song song hóa mới
Điểm nổi bật về hiệu suất:
-
96,0% AIME 2025 (vượt GPT-5 High's 94,6%)
-
99,2% HMMT 2025 (vượt Gemini 3 Pro's 97,5%)
-
Huy chương vàng tại IMO, CMO, và Putnam
-
Rating Codeforces Grandmaster 2701
-
70,2% SWE Multilingual (vượt GPT-5's 55,3% 15 điểm)
Giấy phép MIT mở cho phép triển khai self-hosted, fine-tuning, và kiểm soát dữ liệu hoàn toàn, những tính năng không thể có được với các giải pháp đóng. Các tổ chức có thể triển khai V3.2 trên cơ sở hạ tầng nội bộ để đáp ứng yêu cầu chủ quyền dữ liệu, chỉnh sửa model cho các lĩnh vực chuyên biệt, hoặc thực hiện nghiên cứu an toàn với quyền truy cập đầy đủ vào nội bộ model.
Các nhà cung cấp đóng đang phải chịu áp lực phải chứng minh việc định giá cao thông qua lợi thế hệ sinh thái, hỗ trợ vượt trội, hoặc khoảng cách hiệu suất có ý nghĩa—và các yếu tố phân biệt cần thiết phải vượt qua được bất lợi về chi phí 10–25×. DeepSeek-V3.2 chứng minh rằng phát triển mở có thể sánh ngang với nghiên cứu đóng về cả khả năng và hiệu quả, xác nhận tính khả thi của AI tiền phong mở và có khả năng thúc đẩy đầu tư vào phát triển model minh bạch.
Tài liệu tham khảo
Tài Liệu Kỹ Thuật DeepSeek
DeepSeek-AI. "Báo Cáo Kỹ Thuật DeepSeek-V3." arXiv:2412.19437, tháng 12 năm 2024.https://arxiv.org/abs/2412.19437
DeepSeek-AI. "Báo Cáo Kỹ Thuật và Phát Hành Model DeepSeek-V3.2." DeepSeek Research, 2025.https://github.com/deepseek-ai/DeepSeek-V3
DeepSeek-AI. "Trọng Số Model DeepSeek-V3.2." Hugging Face Model Hub, 2025.https://huggingface.co/deepseek-ai/DeepSeek-V3
DeepSeek-AI. "Tài Liệu Nền Tảng và API DeepSeek." Truy cập ngày 1 tháng 12 năm 2025.https://platform.deepseek.com/docs
DeepSeek-AI. "Thông Báo Phát Hành DeepSeek-V3.2-Exp và V3.2-Speciale." DeepSeek Blog, tháng 9 năm 2025.https://www.deepseek.com/news
Giá cả API và Tài liệu
DeepSeek. "Tài liệu về Giá cả API." Truy cập ngày 1 tháng 12, 2025.https://platform.deepseek.com/pricing
OpenAI. "Giá cả API." Truy cập ngày 1 tháng 12, 2025.https://openai.com/api/pricing
OpenAI. "Điều khoản Dịch vụ OpenAI." Truy cập ngày 1 tháng 12, 2025.https://openai.com/policies/terms-of-use
Google Cloud. "Giá cả Vertex AI: Các mô hình Gemini." Truy cập ngày 1 tháng 12, 2025.https://cloud.google.com/vertex-ai/generative-ai/pricing
Anthropic. "Giá cả API." Truy cập ngày 1 tháng 12, 2025.https://www.anthropic.com/pricing
Anthropic. "Tài liệu API Claude." Truy cập ngày 1 tháng 12, 2025.https://docs.anthropic.com/en/api
Các Tổ Chức Benchmark và Kết Quả Thi Đấu
Mathematical Association of America. "American Invitational Mathematics Examination (AIME)." Truy cập ngày 1 tháng 12, 2025.https://maa.org/math-competitions/invitational-competitions/aime
Harvard-MIT Mathematics Tournament. "About HMMT." Truy cập ngày 1 tháng 12, 2025.https://www.hmmt.org
International Mathematical Olympiad. "About the IMO." Truy cập ngày 1 tháng 12, 2025.https://www.imo-official.org/year_info.aspx?year=2025
Chinese Mathematical Olympiad Committee. "Chinese Mathematical Olympiad (CMO)." China Mathematical Society, 2025.
Mathematical Association of America. "William Lowell Putnam Mathematical Competition." Truy cập ngày 1 tháng 12, 2025.https://maa.org/math-competitions/putnam-competition
Codeforces. "Competitive Programming Platform and Rating System." Truy cập ngày 1 tháng 12, 2025.https://codeforces.com/ratings
"LiveCodeBench: Holistic and Contamination-Free Evaluation of Large Language Models for Code." Truy cập ngày 1 tháng 12, 2025.https://livecodebench.github.io/leaderboard.html
Jimenez, Carlos E., et al. "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" Truy cập ngày 1 tháng 12, 2025.https://www.swebench.com
Center for AI Safety. "Humanity's Last Exam: A Controversial and Adversarial Benchmark." Dự án benchmark nghiên cứu, 2025.
Tài liệu tham khảo về Kiến trúc và Huấn luyện
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, và Illia Polosukhin. "Attention Is All You Need." Advances in Neural Information Processing Systems 30 (2017): 5998–6008.https://arxiv.org/abs/1706.03762
Fedus, William, Barret Zoph, và Noam Shazeer. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity." Journal of Machine Learning Research 23, số 120 (2022): 1–39.https://jmlr.org/papers/v23/21-0998.html
Zoph, Barret, et al. "Designing Effective Sparse Expert Models." arXiv:2202.08906, tháng 2 năm 2022.https://arxiv.org/abs/2202.08906
Cơ sở hạ tầng và Phần cứng GPU
NVIDIA. "Kiến trúc GPU NVIDIA H100 Tensor Core." Tài liệu NVIDIA Data Center, 2023.https://www.nvidia.com/en-us/data-center/h100
NVIDIA. "Thông số kỹ thuật GPU H100 Tensor Core." Truy cập ngày 1 tháng 12, 2025.https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet
Amazon Web Services. "Amazon EC2 P5 Instances (H100)." Truy cập ngày 1 tháng 12, 2025.https://aws.amazon.com/ec2/instance-types/p5
Google Cloud. "Công cụ tính giá GPU." Truy cập ngày 1 tháng 12, 2025.https://cloud.google.com/products/calculator
Microsoft Azure. "Kích thước Máy ảo tối ưu hóa GPU." Truy cập ngày 1 tháng 12, 2025.https://azure.microsoft.com/en-us/pricing/details/virtual-machines/linux
Cấp Phép Mã Nguồn Mở
Open Source Initiative. "The MIT License." Truy cập ngày 1 tháng 12, 2025.https://opensource.org/license/mit
So sánh mô hình và phân tích ngành
OpenAI. "Giới thiệu GPT-5: Mô hình mạnh mẽ nhất của chúng tôi." OpenAI Research Blog, 2025.https://openai.com/research/gpt-5
OpenAI. "GPT-5 System Card: An toàn và khả năng." Truy cập ngày 1 tháng 12, 2025.https://openai.com/research/gpt-5-system-card
Google DeepMind. "Gemini 3: Dòng mô hình AI mạnh mẽ nhất của chúng tôi." Google AI Blog, 2025.https://blog.google/technology/ai/google-gemini-ai-update
Google DeepMind. "Báo cáo kỹ thuật Gemini 3." Truy cập ngày 1 tháng 12, 2025.https://deepmind.google/technologies/gemini
Anthropic. "Claude 4.5 Sonnet: Trí tuệ nâng cao và ngữ cảnh mở rộng." Anthropic News, 2025.https://www.anthropic.com/news/claude-4-5-sonnet
Anthropic. "Claude Model Card: Claude 4.5 Sonnet." Truy cập ngày 1 tháng 12, 2025.https://www.anthropic.com/claude
Meta AI. "Bộ sưu tập mô hình Llama 3." arXiv:2407.21783, tháng 7 năm 2024.https://arxiv.org/abs/2407.21783
Phân Tích Chi Phí Huấn Luyện Trong Ngành
Vance, Alyssa, và Sam Manning. "Ước Tính Chi Phí Huấn Luyện Cho Các Mô Hình Ngôn Ngữ Tiên Tiến." AI Economics Research Group, 2024. Phân tích ngành dựa trên dữ liệu sử dụng GPU-hour đã công bố, dữ liệu định giá cloud, và thông báo từ các nhà cung cấp.
"Cơ Sở Dữ Liệu Chi Phí Huấn Luyện Mô Hình Ngôn Ngữ Lớn." Epoch AI Research, 2024. Truy cập ngày 1 tháng 12, 2025.https://epochai.org/blog/training-compute-of-frontier-ai-models-grows-by-4-5x-per-year
Ghi Chú Về Nguồn
Các benchmark hiệu suất phản ánh đánh giá mô hình chính thức trên các bài kiểm tra tiêu chuẩn do MAA (AIME), HMMT Organization, International Mathematical Olympiad, Codeforces, và các benchmark nghiên cứu học thuật (LiveCodeBench, SWE-bench) quản lý. Giá API phản ánh mức giá được công bố từ tài liệu của nhà cung cấp tính đến tháng 12/2025. Ước tính chi phí huấn luyện ($5.5M cho DeepSeek V3 so với $100M+ cho các mô hình tiên tiến cạnh tranh) dựa trên việc sử dụng GPU-hour mà DeepSeek đã công bố (2.788M giờ H800) và tính toán của các nhà phân tích ngành sử dụng giá GPU cloud. Thông số kỹ thuật kiến trúc được rút ra từ các báo cáo kỹ thuật arXiv và tài liệu mô hình chính thức. Các ví dụ tính toán chi phí giả định các mẫu workload ứng dụng điển hình như được ghi nhận trong hướng dẫn của nhà cung cấp API và phân tích hành vi cache.