Lab AI Tiongkok DeepSeek merilis V3.2 pada tahun 2025, dan model tersebut meraih skor 96.0% pada AIME 2025 sambil mengenakan tarif $0.028 per juta input token—kira-kira sepersepuluh biaya GPT-5. Perusahaan ini membuka sumber seluruh model berparameter 671 miliar di bawah lisensi MIT, membuat performa AI kelas terdepan tersedia bagi siapa saja yang memiliki sumber daya komputasi yang memadai. OpenAI, Google, dan Anthropic kini menghadapi persaingan langsung dari model yang menyamai produk unggulan mereka dalam penalaran matematika dan coding sambil memotong harga mereka hingga satu tingkat lebih rendah.
DeepSeek mencapai ekonomi ini melalui inovasi arsitektural yang mengurangi overhead komputasi tanpa mengorbankan kualitas. Lab ini memperkenalkan DeepSeek Sparse Attention (DSA), sistem pengindeksan yang detail yang mengidentifikasi bagian-bagian signifikan dari konteks panjang dan melewati komputasi yang tidak perlu. DeepSeek juga menyempurnakan arsitektur Mixture-of-Experts-nya untuk menggunakan 256 jaringan expert khusus per layer, mengaktifkan hanya 8 per token, dan menghilangkan auxiliary losses melalui pendekatan bias-term routing yang novel. Pilihan teknis ini memungkinkan DeepSeek melatih V3 dengan biaya $5.5 juta—kurang dari sepersepuluh yang dilaporkan dihabiskan kompetitor—, dan V3.2 dibangun langsung di atas fondasi yang efisien tersebut.
Peluncuran ini menimbulkan pertanyaan fundamental tentang moat kompetitif di sekitar model frontier tertutup dan apakah penetapan harga premium dapat bertahan ketika alternatif terbuka memberikan performa yang sebanding dengan biaya yang jauh lebih rendah.
Terobosan DeepSeek-V3.2
DeepSeek-V3.2 memiliki total 671 miliar parameter, namun arsitektur Mixture-of-Experts hanya mengaktifkan 37 miliar per token. Perusahaan merilis dua varian pada tahun 2025: V3.2 untuk deployment mainstream dan V3.2-Special untuk tugas reasoning komputasi tinggi. V3.2-Special tetap tersedia sementara hingga 15 Desember 2025, sementara V3.2 berfungsi sebagai model produksi utama.
Model ini meraih performa level medali emas di berbagai kompetisi internasional pada tahun 2025, termasuk International Mathematical Olympiad (IMO), Chinese Mathematical Olympiad (CMO), International Collegiate Programming Contest (ICPC), dan International Olympiad in Informatics (IOI). DeepSeek-V3.2 meraih skor 96,0% pada American Invitational Mathematics Examination (AIME) 2025, melampaui GPT-5 High yang mencapai 94,6% dan menyamai Gemini 3 Pro dengan 95,0%. Model ini juga mencapai 99,2% pada Harvard-MIT Mathematics Tournament (HMMT) 2025, dibandingkan dengan Gemini 3 Pro yang mencapai 97,5%.
Perbandingan Harga
ModelCached InputStandard InputOutput
DeepSeek V3.2 $0.028/M tokens $0.28/M tokens $0.42/M tokens
GPT-5 — $1.25/M tokens $10/M tokens
Beban kerja tipikal yang memproses 100.000 input token dan menghasilkan 100.000 output token memerlukan biaya sekitar $0.07 dengan DeepSeek dibandingkan dengan $1.13 dengan GPT-5.
DeepSeek merilis V3.2 di bawah lisensi MIT dan menerbitkan model weights lengkap di Hugging Face. Organisasi dapat mengunduh, memodifikasi, dan men-deploy model untuk tujuan komersial tanpa batasan, memungkinkan deployment lokal untuk memenuhi persyaratan kedaulatan data atau untuk fine-tuning kustom di domain khusus.
## Arsitektur Deep Dive
Inovasi teknis DeepSeek-V3.2 berfokus pada tiga area: sparse attention untuk konteks panjang, desain Mixture-of-Experts yang disempurnakan, dan load balancing tanpa auxiliary loss. Pilihan arsitektur ini bekerja sama untuk memberikan performa terdepan sambil secara drastis mengurangi biaya komputasi.
DeepSeek Sparse Attention
Mekanisme attention transformer standar menghitung hubungan antara semua pasangan token dalam sebuah urutan, menghasilkan kompleksitas komputasi kuadratik seiring bertambahnya panjang konteks. Konteks 128.000 token memerlukan sekitar 16 miliar kalkulasi attention (128.000²), membuat pemrosesan konteks panjang menjadi mahal bahkan dengan akselerator modern. DeepSeek Sparse Attention mengatasi bottleneck komputasi dengan mengidentifikasi token mana yang benar-benar memerlukan attention dan melewatkan kalkulasi untuk pasangan yang kurang relevan.
Sistem DSA mempertahankan indeks berbutir halus yang melacak kepentingan semantik di seluruh jendela konteks. Saat memproses token baru, mekanisme attention melakukan query pada indeks untuk mengidentifikasi token bernilai tinggi yang kemungkinan mengandung informasi relevan, kemudian menghitung full attention hanya untuk token-token yang dipilih tersebut. Pendekatan ini berbeda dari pola sparse attention tetap (yang mungkin memberikan attention pada setiap token ke-10) dengan memilih token yang diperlukan secara dinamis berdasarkan konten semantik daripada aturan posisional.
DeepSeek pertama kali memperkenalkan DSA dalam V3.2-Exp selama September 2025 dan mencapai pengurangan biaya komputasi sebesar 50% untuk tugas konteks panjang sambil mempertahankan metrik kualitas yang sebanding dengan dense attention. Rilis produksi V3.2 mewarisi keuntungan efisiensi ini, membuat konteks 128.000 token menjadi layak secara ekonomis untuk aplikasi volume tinggi.
Inovasi sparse attention ini penting khususnya untuk pemahaman kode, analisis dokumen, dan percakapan multi-turn, di mana informasi relevan mungkin muncul di mana saja dalam riwayat yang panjang. Model dense attention mengeluarkan biaya komputasi yang sama persis per token terlepas dari relevansi; DSA mengalokasikan sumber daya komputasi untuk token yang benar-benar memengaruhi kualitas generasi.
Fondasi Mixture-of-Experts
DeepSeek-V3.2 mengimplementasikan arsitektur Mixture-of-Experts dengan 256 jaringan expert per layer, naik dari 160 expert di V2. Model mengaktifkan delapan expert per token: 1–2 shared expert yang menangani pola umum di semua input, ditambah 6–7 routed expert yang dipilih berdasarkan konten token. Jumlah total parameter mencapai 671 miliar, tetapi hanya 37 miliar parameter yang diaktifkan untuk token tunggal mana pun, menjaga biaya inferensi tetap terkendali sambil mempertahankan kapasitas untuk melakukan spesialisasi.
Setiap jaringan expert melakukan spesialisasi melalui training, dengan expert yang berbeda mengembangkan kompetensi dalam domain seperti penalaran matematika, generasi kode, penulisan ilmiah, atau bahasa percakapan. Mekanisme routing belajar mengirim token matematika ke expert yang terspesialisasi dalam matematika, token kode ke expert programming, dan seterusnya, memungkinkan model mencapai performa tingkat expert di berbagai tugas tanpa mengaktifkan semua 671 miliar parameter.
Pilihan arsitektur ini secara langsung mengatasi tradeoff fundamental dalam desain model bahasa. Dense model mengaktifkan semua parameter untuk setiap token, memberikan komputasi yang konsisten tetapi membatasi total kapasitas untuk budget inferensi tertentu. Model sparse MoE mempertahankan kapasitas total yang sangat besar sambil hanya mengaktifkan subset parameter, memungkinkan spesialisasi di berbagai domain yang akan memerlukan dense model yang sangat besar dan tidak praktis.
Implementasi DeepSeek mendedikasikan 1–2 shared expert per layer untuk menangani pola yang sering muncul di semua jenis input: kata-kata umum, tata bahasa dasar, dan langkah penalaran sederhana. Shared expert diaktifkan untuk setiap token terlepas dari keputusan routing, memastikan model mempertahankan kompetensi dasar sebelum expert khusus memperbaiki output. Kombinasi shared dan routed expert mencegah model gagal pada input out-of-distribution yang mungkin tidak masuk dalam domain training expert mana pun.
Auxiliary-Loss-Free Load Balancing
Arsitektur Mixture-of-Experts menghadapi tantangan load balancing: mekanisme routing mungkin mengirim sebagian besar token ke subset kecil expert, meninggalkan expert lain kurang dimanfaatkan dan menggagalkan tujuan kapasitas terspesialisasi. Training biasanya konvergen pada beberapa expert dominan kecuali sistem secara aktif mendorong penggunaan expert yang seimbang.
Implementasi MoE standar menambahkan term auxiliary loss ke objective training yang memberikan penalti pada penggunaan expert yang tidak seimbang. Auxiliary loss mungkin mengukur berapa banyak token yang diterima setiap expert dan menambahkan penalti ketika penggunaan menjadi condong, mendorong mekanisme routing untuk menyebar token lebih merata di seluruh expert. Namun, auxiliary loss bersaing dengan objective utama memprediksi token berikutnya dengan benar, berpotensi menurunkan kualitas model sebagai ganti load balance yang lebih baik.
DeepSeek-V3.2 menghilangkan auxiliary loss sepenuhnya dan sebagai gantinya mengimplementasikan load balancing melalui bias term dalam mekanisme routing. Router menghitung skor afinitas antara setiap token dan setiap expert, kemudian menambahkan bias negatif kecil pada expert yang baru-baru ini menerima banyak token. Bias term membuat expert yang terlalu banyak digunakan sedikit kurang menarik untuk keputusan routing di masa depan tanpa memerlukan fungsi loss terpisah yang bertentangan dengan objective kualitas.
Pendekatan ini memungkinkan DeepSeek mengoptimalkan murni untuk prediksi token berikutnya sambil mempertahankan load balance yang wajar melalui mekanisme bias. Model juga menghilangkan token dropping selama training (teknik umum di mana model melewatkan komputasi untuk beberapa token ketika kapasitas expert terisi penuh), memastikan setiap token menerima pemrosesan lengkap dari expert yang dipilih.
Dari V3 ke V3.2: Evolusi Efisiensi
Terobosan efisiensi DeepSeek dimulai dengan V3 pada Desember 2024, ketika lab tersebut melatih model frontier yang kompetitif dengan biaya $5,5 juta menggunakan 2,788 juta jam GPU H800. Pesaing dilaporkan menghabiskan $100 juta atau lebih untuk melatih model seperti GPT-4, membuat pengurangan biaya 95% DeepSeek terlihat mencolok bahkan sebelum mempertimbangkan optimisasi tambahan V3.2.
DeepSeek mencapai efisiensi pelatihan V3 melalui beberapa pilihan teknis:
-
Pelatihan mixed precision FP8 alih-alih precision FP16 atau BF16 yang digunakan sebagian besar pesaing, yang secara kasar memotong setengah kebutuhan bandwidth memori dan memungkinkan ukuran batch yang lebih besar
-
Algoritma DualPipe khusus untuk pipeline parallelism yang meningkatkan utilisasi GPU dibandingkan pendekatan pipeline standar
-
14,8 triliun token pelatihan (lebih sedikit dari 15+ triliun token yang digunakan untuk model seperti Llama 3.1 405B) dengan objektif prediksi multi-token yang meningkatkan efisiensi sampel
Fondasi V3 memberikan performa yang kompetitif dengan biaya pelatihan yang secara dramatis lebih rendah, tetapi model tersebut menggunakan attention dense standar untuk konteks panjang. DeepSeek merilis V3.2-Exp pada September 2025 sebagai varian eksperimental yang memperkenalkan DeepSeek Sparse Attention. Rilis eksperimental tersebut memvalidasi bahwa sparse attention dapat mengurangi biaya pemrosesan konteks panjang sebesar 50% tanpa degradasi kualitas yang terukur pada benchmark utama.
DeepSeek meluncurkan V3.2 dan V3.2-Special pada 2025 sebagai model siap produksi, membangun dari eksperimen V3.2-Exp. V3.2 menargetkan deployment mainstream di skenario API dan self-hosted, sementara V3.2-Specialized menekankan pada tugas reasoning berkomputasi tinggi seperti soal kompetisi matematika dan tantangan coding kompleks.
Evolusi dari V3 ke V3.2 mendemonstrasikan fokus DeepSeek pada efisiensi pelatihan dan inferensi daripada maksimalisasi benchmark murni. Lab tersebut melatih V3 dengan biaya seperdua puluh dari model sebanding, kemudian memperkenalkan penyempurnaan arsitektural dalam V3.2 yang secara kasar memotong setengah biaya inferensi untuk tugas konteks panjang. Efisiensi yang terakumulasi memungkinkan DeepSeek untuk memotong harga pesaing hingga satu orde magnitude sambil mempertahankan margin yang cukup untuk mengoperasikan layanan API komersial.
Analisis Performa Benchmark
DeepSeek-V3.2 mencapai hasil yang powerful pada benchmark penalaran matematis dan coding sambil menunjukkan performa yang kompetitif namun tidak terdepan pada tugas pengetahuan umum. Profil performa ini membuat V3.2 sangat cocok untuk domain teknis, tetapi menyarankan pengguna lebih memilih kompetitor untuk recall faktual yang luas.
Matematika dan Penalaran
BenchmarkDeepSeek V3.2GPT-5 HighGemini 3 Pro
AIME 2025 96.0% 94.6% 95.0%
HMMT 2025 99.2% — 97.5%
IMO 2025 Gold Medal — —
CMO 2025 Gold Medal — —
Putnam Gold Medal — —
DeepSeek-V3.2 mencetak skor 96.0% pada AIME 2025, melampaui 94.6% GPT-5 High dan menyamai 95.0% Gemini 3 Pro. Model ini berhasil menyelesaikan hampir semua soal pada ujian yang dirancang untuk mengidentifikasi siswa SMA terbaik dalam matematika di Amerika Serikat, mendemonstrasikan performa yang kuat pada penalaran aljabar dan geometri multi-langkah.
Model ini mencapai 99.2% pada HMMT 2025, melampaui 97.5% Gemini 3 Pro. Soal HMMT memerlukan teknik matematika tingkat lanjut di luar kurikulum SMA pada umumnya, termasuk teori bilangan kompleks, kombinatorik, dan penalaran berbasis pembuktian. Performa DeepSeek-V3.2 yang hampir sempurna menunjukkan model ini menangani matematika level sarjana dengan andal.
Performa Coding
BenchmarkDeepSeek V3.2GPT-5Gemini 3 Pro
LiveCodeBench 83.3% 84.5% 90.7%
SWE Multilingual 70.2% 55.3% —
SWE Verified 73.1% — 76.2%
Codeforces Rating 2701 (Grandmaster) — —
DeepSeek-V3.2 mencapai 83.3% pada LiveCodeBench, tertinggal dari 84.5% GPT-5 dan 90.7% Gemini 3 Pro. LiveCodeBench mengevaluasi pembuatan kode pada masalah programming yang baru dipublikasikan, menguji apakah model dapat menerapkan training mereka pada tantangan baru alih-alih menghafalkan solusi untuk masalah benchmark yang umum.
DeepSeek-V3.2 mencetak skor 70.2% pada SWE Multilingual, secara substansial mengungguli 55.3% GPT-5. SWE Multilingual menguji kemampuan model untuk memodifikasi codebase yang ada di berbagai bahasa programming, memerlukan pemahaman struktur kode, idiom khusus bahasa, dan pola refactoring. Keunggulan 15 poin persentase DeepSeek dibanding GPT-5 menunjukkan performa yang kuat pada tugas pemahaman dan modifikasi kode.
DeepSeek-V3.2 mencapai rating Codeforces 2701, menempatkan model ini di tier Grandmaster. Rating 2701 melampaui 99.8% programmer kompetitif manusia dan menunjukkan kemampuan coding level expert.
Pengetahuan Umum dan Evaluasi Luas
DeepSeek-V3.2 mencetak skor 30.6% pada Humanity's Last Exam, tertinggal dari 37.7% Gemini 3 Pro. Humanity's Last Exam sengaja menguji batas-batas kemampuan AI saat ini dengan pertanyaan yang mencakup trivia yang obscure, penalaran kreatif, dan expertise domain dalam bidang seperti sejarah seni, musik klasik, dan pengetahuan ilmiah yang terspesialisasi. Gap 7 poin menunjukkan Gemini 3 Pro mempertahankan pengetahuan faktual yang lebih luas, khususnya di domain non-teknis.
Pola performa di berbagai benchmark mengungkap positioning DeepSeek-V3.2: model ini unggul dalam penalaran teknis yang presisi di matematika dan programming sambil menunjukkan performa kompetitif namun tidak dominan pada tugas pengetahuan umum.
Ekonomi: Keunggulan Biaya 10–25×
Struktur harga DeepSeek-V3.2 memberikan penghematan biaya yang dramatis dibandingkan dengan model frontier yang bersaing, dengan keunggulan yang bervariasi berdasarkan karakteristik workload dan pemanfaatan cache.
Perbandingan Harga API
DeepSeek mengenakan tarif $0,028 per juta token input ketika melayani dari cache, $0,28 per juta token input pada cache miss, dan $0,42 per juta token output. Harga input yang di-cache berlaku ketika model baru-baru ini memproses konteks yang identik, memungkinkan DeepSeek untuk menggunakan kembali komputasi sebelumnya daripada memproses token dari awal.
OpenAI mengenakan tarif $1,25 per juta token input dan $10 per juta token output untuk GPT-5, tanpa harga cache yang berbeda.
Contoh: 100K input + 100K token output
| Model | Biaya |
|---|---|
| DeepSeek V3.2 (50% cache) | $0,070 |
| GPT-5 | $1,125 |
| GPT-5-mini | $0,225 |
| Gemini 3 Pro (est.) | $1,10–1,30 |
| Claude 4.5 Sonnet (est.) | $1,30–1,80 |
DeepSeek menghasilkan penghematan biaya sekitar 16× dibandingkan GPT-5 untuk workload baca-tulis yang seimbang.
Contoh: Workload cache-heavy (1M input @ 80% cache + 200K output)
| Model | Biaya |
|---|---|
| DeepSeek V3.2 | $0,106 |
| GPT-5 | $3,25 |
| GPT-5-mini | $0,65 |
Keunggulan 31× DeepSeek dibandingkan GPT-5 pada workload cache-heavy membuat model ini sangat menarik untuk aplikasi yang berulang kali memproses konteks yang serupa.
Inovasi Biaya Training
DeepSeek melatih V3 dengan $5,5 juta menggunakan 2.788 juta jam GPU H800, dibandingkan dengan biaya training yang dilaporkan melebihi $100 juta untuk model seperti GPT-4. Perhitungan biaya mengasumsikan $2 per jam GPU H800, yang mencerminkan harga cloud tipikal untuk kapasitas reserved volume tinggi.
Biaya training $5,5 juta menciptakan ekonomi yang berbeda secara fundamental untuk pengembangan model. Organisasi yang melatih model kompetitif di bawah $10 juta dapat melakukan iterasi dengan cepat, bereksperimen dengan arsitektur novel, dan menyerap sesekali training run yang gagal tanpa risiko finansial yang eksistensial. Lab yang menghabiskan $100+ juta per training run menghadapi tekanan substansial untuk memaksimalkan skor benchmark pada percobaan pertama, berpotensi mencegah eksperimentasi arsitektural.
Implikasi Ekonomi untuk Deployment
Keunggulan biaya 10–25× mengubah ekonomi deployment untuk aplikasi volume tinggi:
Contoh: Aplikasi customer service yang memproses 10B token/bulan
| Model | Biaya Bulanan | Selisih Tahunan |
|---|---|---|
| DeepSeek V3.2 | $2,800 | — |
| GPT-5 | $12,500–15,000 | $116,000–146,000 |
Ekonomi ini juga memungkinkan kategori aplikasi yang sepenuhnya baru yang tetap tidak ekonomis pada harga GPT-5: analisis kode latar belakang yang berjalan terus-menerus di seluruh repositori besar, ringkasan dokumen proaktif untuk knowledge base, atau jawaban query spekulatif menjadi viable pada titik harga DeepSeek. Struktur biaya mengubah AI dari fitur premium yang memerlukan invokasi pengguna eksplisit menjadi kemampuan ambient yang berjalan terus-menerus di latar belakang.
## Implikasi Open Source
DeepSeek merilis V3.2 di bawah lisensi MIT, memberikan akses tanpa batasan ke bobot model dan mengizinkan penggunaan komersial, modifikasi, dan redistribusi. Keputusan lisensi ini membuat performa AI kelas frontier tersedia bagi organisasi mana pun yang memiliki infrastruktur inferensi yang memadai, secara fundamental mengubah dinamika kompetitif dalam industri AI.
Ketentuan Lisensi dan Ketersediaan
Lisensi MIT menerapkan pembatasan minimal: pengguna harus mempertahankan pemberitahuan hak cipta dan penafian, tetapi tidak menghadapi batasan dalam deployment komersial, modifikasi proprietary, atau redistribusi. Organisasi dapat mengunduh bobot model V3.2 dengan 671 miliar parameter dari Hugging Face dan mendeploynya di infrastruktur internal tanpa biaya lisensi berkelanjutan, revenue sharing, atau pembatasan penggunaan.
Lisensi ini mengizinkan fine-tuning V3.2 pada dataset proprietary untuk menciptakan varian khusus untuk domain seperti analisis hukum, penalaran medis, atau pemodelan finansial. Organisasi dapat menjaga bobot hasil fine-tuning tetap privat daripada merilis secara publik, memungkinkan diferensiasi kompetitif melalui adaptasi domain.
Mendemokratisasi AI Frontier
Rilis DeepSeek membuat performa yang kompetitif dengan GPT-5 dapat diakses oleh organisasi yang sebelumnya dikecualikan dari kemampuan AI frontier:
-
Startup: Startup dengan pendanaan yang baik dapat mendeploy V3.2 di infrastruktur GPU yang disewa dengan biaya sekitar $20.000–50.000 per bulan
-
Peneliti akademik: Dapat menjalankan V3.2 secara lokal dengan biaya infrastruktur satu kali daripada membayar per-token yang akan melebihi sebagian besar anggaran hibah
-
Industri teregulasi: Penyedia layanan kesehatan, institusi keuangan, dan lembaga pemerintah dapat mendeploy sepenuhnya on-premises, memproses informasi sensitif tanpa mengirim data ke API eksternal
Tekanan pada Ekonomi Model Tertutup
Rilis open yang kompetitif dari DeepSeek memaksa penyedia closed-model untuk membenarkan harga premium mereka. OpenAI mengenakan biaya 10–25× lebih mahal daripada DeepSeek untuk performa yang sebanding, mengharuskan pelanggan untuk menghargai faktor-faktor di luar metrik kemampuan mentah. Justifikasi potensial mencakup dukungan pelanggan yang superior, alat integrasi yang lebih baik, ekosistem yang lebih matang, atau guardrail keamanan yang lebih kuat—tetapi perbedaan biaya memerlukan keunggulan kualitatif yang substansial untuk diatasi.
Tekanan harga mengintensif ketika lebih banyak organisasi memperoleh keahlian dalam mendeploy dan mengoperasikan model open. Kompleksitas infrastruktur saat ini memberikan moat bagi API tertutup; banyak tim lebih memilih membayar premium untuk menghindari mengelola cluster GPU, menangani kuantisasi model, dan debugging masalah inferensi. Namun, perbaikan dalam tooling dan meningkatnya familiaritas engineering dengan deployment model open secara bertahap mengikis keunggulan operasional layanan API-only.
Keunggulan Deployment Produksi
Karakteristik teknis dan ketersediaan terbuka DeepSeek-V3.2 menciptakan beberapa keunggulan untuk deployment produksi selain dari penghematan biaya murni.
Efisiensi Konteks Panjang
DeepSeek-V3.2 mendukung konteks 128,000-token dan memproses input panjang secara efisien melalui DeepSeek Sparse Attention. Mekanisme sparse attention mengurangi biaya komputasi sekitar 50% dalam konteks panjang dibandingkan dengan dense attention, membuat pemrosesan 128K-token menjadi ekonomis bahkan untuk aplikasi volume tinggi.
Kapasitas konteks yang diperluas memungkinkan aplikasi yang masih tidak praktis dengan model yang menawarkan jendela lebih pendek:
-
Pemahaman kode: Seluruh repositori (sering 50,000–100,000 token untuk proyek ukuran menengah) muat dalam satu konteks V3.2
-
Analisis dokumen: Beberapa makalah atau laporan sepanjang penuh tanpa strategi chunking
-
Percakapan multi-turn: Preservasi riwayat lengkap tanpa memotong pertukaran awal
Scaling yang Efektif Biaya
Keunggulan harga DeepSeek 10–25× dibandingkan GPT-5 memungkinkan aplikasi untuk melakukan scaling ke basis pengguna yang lebih besar atau volume per pengguna yang lebih tinggi tanpa peningkatan biaya proporsional. Sebuah aplikasi mungkin mampu menanggung 1,000 query GPT-5 per pengguna per hari pada harga saat ini, tetapi dapat mendukung 10,000–25,000 query per pengguna per hari dengan biaya setara menggunakan DeepSeek.
Efisiensi biaya terutama menguntungkan agentic workflows, di mana language model menjalankan beberapa tool call, kritik diri, dan perbaikan iteratif untuk satu permintaan pengguna. Sebuah agent mungkin mengonsumsi 100,000–500,000 token untuk memproses query kompleks, termasuk riset, perencanaan, eksekusi, dan verifikasi. Harga DeepSeek membuat sistem agentic yang canggih menjadi layak secara ekonomis untuk aplikasi mainstream.
Fleksibilitas Self-Hosting
Organisasi dapat men-deploy V3.2 pada infrastruktur internal, mendapatkan kontrol penuh atas pemrosesan data, perilaku model, dan biaya operasional. Self-hosting menghilangkan kekhawatiran tentang keandalan penyedia API, rate limiting, atau perubahan kebijakan yang mungkin mengganggu layanan.
Deployment self-hosted memungkinkan modifikasi kustom yang tidak mungkin dilakukan dengan layanan API-only:
-
Fine-tune pada dataset proprietary
-
Menyesuaikan format output agar sesuai dengan standar internal
-
Memodifikasi filter keamanan untuk konteks khusus
-
Integrasi ketat dengan sistem internal
Kebutuhan hardware untuk deployment V3.2 bergantung pada kebutuhan throughput dan toleransi kuantisasi:
Presisi Kebutuhan Memori Konfigurasi GPU
Full FP16 ~1.3TB 8–16 H100/A100 (80GB)
8-bit quantized ~670GB 4–8 H100/A100 (80GB)
4-bit quantized ~335GB 2–4 H100/A100 (80GB)
Kelebihan vs. Keterbatasan
Memahami profil performa DeepSeek-V3.2 membantu organisasi memilih model yang tepat untuk kasus penggunaan mereka.
Dimana DeepSeek Unggul
-
Penalaran matematis: 96.0% AIME, 99.2% HMMT, medali emas pada IMO/CMO/Putnam menunjukkan kemampuan terbaik di kelasnya
-
Analisis dan refactoring kode: 70.2% SWE Multilingual secara substansial melampaui 55.3% milik GPT-5
-
Competitive programming: Rating Codeforces 2701 (tier Grandmaster, melampaui 99.8% manusia)
-
Efisiensi biaya: Keunggulan harga 10–25× memungkinkan kasus penggunaan yang sebelumnya tidak praktis
-
Konteks panjang: Pengurangan biaya 50% melalui sparse attention untuk input 128K
-
Ketersediaan terbuka: Lisensi MIT memungkinkan kustomisasi, self-hosting, dan kontrol data lengkap
Keterbatasan Saat Ini
-
Keluasan pengetahuan umum: 30.6% pada Humanity's Last Exam vs. 37.7% milik Gemini
-
Generasi kode baru: 90.7% LiveCodeBench milik Gemini 3 Pro melampaui 83.3% milik V3.2
-
Kematangan ekosistem: GPT-4/5 memiliki tooling, framework, dan integrasi pihak ketiga yang ekstensif
-
Optimisasi inference: Alternatif yang lebih matang mungkin mencapai throughput yang lebih baik pada awalnya
-
Kompleksitas self-hosting: Memerlukan keahlian infrastruktur GPU dan proses operasional
Rekomendasi Kasus Penggunaan
Prioritaskan DeepSeek-V3.2 untuk:
-
Aplikasi penalaran matematis yang memerlukan akurasi tinggi
-
Analisis kode, refactoring, dan pemahaman lintas codebase besar
-
Deployment API volume tinggi dimana biaya mendorong keputusan arsitektur
-
Workload batch processing dengan tingkat cache hit rate tinggi
-
Aplikasi yang memerlukan kedaulatan data melalui deployment on-premises
-
Proyek penelitian yang memerlukan akses model ekstensif tanpa biaya API yang melarang
Pertimbangkan alternatif ketika:
-
Pengetahuan umum yang luas lintas domain yang beragam mendorong kualitas aplikasi.
-
Kematangan ekosistem dan integrasi tooling yang ekstensif membenarkan harga premium.
-
Kualitas generasi kode maksimum untuk tantangan programming baru lebih penting daripada biaya.
-
Kesederhanaan operasional dan dukungan vendor lebih penting daripada pertimbangan biaya.
-
Aplikasi memerlukan properti keamanan khusus atau penyaringan konten.
## Lanskap Kompetitif
Peluncuran DeepSeek-V3.2 mengintensifkan persaingan di pasar AI frontier dengan menyediakan alternatif terbuka dan berbiaya rendah terhadap layanan tertutup dan premium.
DeepSeek vs. GPT-5
DimensiDeepSeek V3.2GPT-5
AIME 2025 96.0% 94.6%
LiveCodeBench 83.3% 84.5%
Biaya 10–25× lebih murah Premium
Ketersediaan Open weights, MIT Khusus API
Ekosistem Berkembang Matang
Organisasi sebaiknya memilih GPT-5 ketika integrasi ekosistem, dukungan vendor, dan kesederhanaan operasional dapat membenarkan biaya yang 10–25× lebih tinggi. Organisasi sebaiknya memilih DeepSeek-V3.2 ketika efisiensi biaya, fleksibilitas kustomisasi, atau persyaratan kedaulatan data lebih penting daripada keunggulan ekosistem GPT-5.
DeepSeek vs. Gemini 3 Pro
DimensiDeepSeek V3.2Gemini 3 Pro
AIME 2025 96.0% 95.0%
HMMT 2025 99.2% 97.5%
LiveCodeBench 83.3% 90.7%
Humanity's Last Exam 30.6% 37.7%
Biaya 10–20× lebih murah Premium
Aplikasi yang menekankan ketepatan matematis, penalaran teknis, atau pemahaman kode sejalan dengan kekuatan DeepSeek, sementara aplikasi yang memerlukan pengetahuan umum yang ekstensif atau generasi kode canggih mungkin mencapai hasil yang lebih baik dengan Gemini.
DeepSeek vs. Claude 4
DimensiDeepSeek V3.2Claude 4.5 Sonnet
Context window 128K 200K
Penalaran Sebanding Sebanding
Biaya 13–18× lebih murah Premium
Kualitas percakapan Baik Dioptimalkan untuk kepembantan
Organisasi yang memprioritaskan kualitas output dan alur percakapan yang natural mungkin lebih memilih pelatihan Claude yang teliti untuk interaksi yang membantu, tidak berbahaya, dan jujur. Organisasi yang memprioritaskan ketepatan teknis dan efisiensi biaya akan menemukan bahwa DeepSeek memberikan penalaran yang sebanding dengan harga yang jauh lebih rendah.
Ringkasan Posisi Pasar
DeepSeek-V3.2 membangun posisi berorientasi nilai di pasar AI frontier: performa yang kompetitif dengan biaya 10–25× lebih rendah daripada alternatif tertutup. Posisi ini menciptakan tekanan di seluruh pasar dengan memaksa penyedia tertutup membenarkan harga premium melalui keunggulan ekosistem, kualitas dukungan, atau gap performa yang signifikan.
Pasar tampaknya menuju segmentasi yang lebih besar, dengan layanan premium tertutup bersaing dalam hal kualitas dan kemudahan penggunaan, sementara alternatif terbuka bersaing dalam hal biaya dan fleksibilitas.
Pertimbangan Infrastruktur
Menerapkan DeepSeek-V3.2 secara efektif memerlukan pertimbangan yang cermat terhadap persyaratan hardware, pendekatan operasional, dan pola integrasi.
Opsi Deployment
DeepSeek API menyediakan jalur deployment yang paling mudah. Organisasi dapat mengintegrasikan V3.2 melalui REST API standar tanpa perlu mengelola infrastruktur. Tim yang kurang memiliki keahlian GPU atau organisasi dengan volume penggunaan yang sedang sering mendapati bahwa API resmi memberikan ekonomis dan kesederhanaan operasional yang optimal.
Self-hosted cloud deployment menyeimbangkan kontrol dengan infrastruktur terkelola. Organisasi dapat men-deploy V3.2 pada cloud GPU instances dari AWS, Google Cloud, atau Azure. Cloud deployment biasanya memerlukan biaya $20,000–50,000 per bulan dan menjadi kompetitif dari segi biaya dibandingkan API DeepSeek pada 100–300 miliar token bulanan.
On-premises deployment memberikan kontrol maksimum dan kedaulatan data. Memerlukan investasi modal awal yang substansial ($300,000–800,000 untuk GPU cluster siap produksi) ditambah biaya operasional berkelanjutan. Masuk akal secara ekonomis untuk organisasi dengan infrastruktur GPU yang sudah ada, persyaratan regulasi, atau volume penggunaan yang sangat tinggi.
Pendekatan hybrid menggabungkan beberapa strategi—menggunakan API untuk traffic standar sambil menjalankan inference on-premises untuk data sensitif.
Pola Integrasi
-
Integrasi API-first: REST API standar menggunakan pola request-response yang familiar bagi backend developer
-
Deployment lokal untuk data sensitif: Memproses informasi rahasia tanpa panggilan API eksternal
-
Optimasi batch processing: Menyusun workload untuk memaksimalkan cache hit rates
-
Strategi pemanfaatan cache: Mengidentifikasi konteks yang sering digunakan dan menyusun request untuk memanfaatkan caching (dapat mengurangi biaya sebesar 50–70%)
Keahlian Operasional
Men-deploy infrastruktur GPU skala produksi memerlukan keahlian khusus dalam high-performance computing, optimasi model, dan debugging sistem inference. Organisasi harus menangani update driver, manajemen termal, kegagalan hardware, kuantisasi model, optimasi batch processing, dan monitoring performa.
Untuk organisasi yang mempertimbangkan deployment skala besar, bermitra dengan penyedia infrastruktur khusus dapat menangani kompleksitas operasional sambil memanfaatkan keuntungan biaya dari self-hosting.
Melihat ke Depan
Peluncuran DeepSeek-V3.2 menandai momen yang signifikan dalam evolusi industri AI, namun teknologi ini terus berkembang dengan pesat.
Evolusi Model
DeepSeek terus menyempurnakan V3.2 dan mengembangkan versi-versi mendatang. Terobosan biaya training yang ditunjukkan oleh V3 ($5.5M vs. $100M+ untuk kompetitor) menunjukkan ruang yang substansial untuk peningkatan efisiensi yang berkelanjutan. Setiap peningkatan efisiensi bertumpuk dengan perbaikan sebelumnya, berpotensi memperlebar keunggulan biaya DeepSeek dibanding kompetitor tertutup.
Fine-tuning komunitas kemungkinan akan menghasilkan varian V3.2 yang terspesialisasi dan dioptimalkan untuk domain spesifik—medis, hukum, ilmiah, atau repositori kode—menciptakan model ahli yang tidak tersedia dari penyedia serba guna.
Dampak Industri terhadap Harga
Keunggulan harga DeepSeek 10–25× memaksa penyedia tertutup untuk membenarkan posisi premium mereka atau menurunkan harga. Penyedia tertutup mungkin:
-
Melakukan segmentasi pasar secara lebih eksplisit dengan tier Premium vs. biaya rendah.
-
Menekankan diferensiator kualitatif (ekosistem, keamanan, dukungan)
-
Mempercepat pengembangan kapabilitas untuk mempertahankan kesenjangan performa.
Tekanan harga tampak tidak terhindarkan. Keberadaan alternatif open source yang kredibel dengan biaya 10–25× lebih rendah secara fundamental mengubah kesediaan pelanggan untuk membayar harga premium untuk peningkatan kualitas yang sederhana.
Akselerasi Kemajuan Open Source
Rilis open frontier-class DeepSeek menunjukkan bahwa pengembangan terbuka dapat menyamai penelitian tertutup baik dalam kapabilitas maupun efisiensi. Validasi ini mendorong investasi tambahan dalam penelitian AI terbuka.
Lisensi MIT memungkinkan kontribusi komunitas yang mempercepat kemajuan melampaui kecepatan pengembangan internal DeepSeek. Engine inference yang dioptimalkan, teknik kuantisasi, framework fine-tuning, dan tools deployment muncul dari upaya komunitas yang terdistribusi.
Model frontier terbuka juga memungkinkan penelitian keamanan yang tidak mungkin dilakukan dengan alternatif tertutup. Para ilmuwan dapat mempelajari representasi internal, menguji properti keamanan secara menyeluruh, mengukur bias secara sistematis, dan menganalisis mode kegagalan tanpa bergantung pada akses API.
Implikasi untuk Infrastruktur AI
Terobosan efisiensi DeepSeek mengubah perencanaan infrastruktur untuk deployment AI. Organisasi yang sebelumnya berasumsi bahwa frontier AI memerlukan akses API secara eksklusif kini menghadapi opsi self-hosting yang layak.
Produsen hardware menghadapi permintaan yang meningkat untuk akselerator yang dioptimalkan untuk inference. Keahlian yang diperlukan untuk melakukan deployment infrastruktur AI produksi menjadi semakin berharga karena lebih banyak organisasi mengejar strategi self-hosting.
Kesimpulan
DeepSeek-V3.2 memberikan performa AI kelas frontier dengan biaya 10–25× lebih rendah dibandingkan alternatif closed, didukung oleh kombinasi inovasi arsitektur dan terobosan efisiensi training. Model ini menyamai atau melampaui GPT-5 dan Gemini 3 Pro pada benchmark penalaran matematika sambil memotong harga API mereka hingga satu orde magnitude, semuanya dengan tetap mempertahankan ketersediaan open yang lengkap di bawah lisensi MIT.
Pencapaian teknis utama:
-
DeepSeek Sparse Attention untuk pemrosesan long-context yang efisien (pengurangan biaya 50%)
-
Arsitektur Mixture-of-Experts yang telah disempurnakan dengan 256 routed experts (671B total, 37B aktif per token)
-
Load balancing bebas auxiliary-loss yang mengoptimalkan murni untuk kualitas generasi
-
V3 dilatih dengan biaya $5.5 juta menggunakan FP8 mixed precision dan teknik parallelism yang novel
Sorotan performa:
-
96.0% AIME 2025 (melampaui 94.6% GPT-5 High)
-
99.2% HMMT 2025 (melampaui 97.5% Gemini 3 Pro)
-
Medali emas pada IMO, CMO, dan Putnam
-
Rating Codeforces Grandmaster 2701
-
70.2% SWE Multilingual (melampaui 55.3% GPT-5 dengan selisih 15 poin)
Lisensi MIT yang open memungkinkan deployment self-hosted, fine-tuning, dan kontrol data yang lengkap, fitur-fitur yang tidak mungkin dengan alternatif closed. Organisasi dapat men-deploy V3.2 pada infrastruktur internal untuk memenuhi persyaratan data sovereignty, memodifikasi model untuk domain khusus, atau melakukan riset safety dengan akses penuh ke internal model.
Provider closed menghadapi tekanan untuk membenarkan pricing premium melalui keunggulan ekosistem, dukungan yang superior, atau gap performa yang berarti—dan diferensiator yang diperlukan harus mengatasi kerugian biaya 10–25×. DeepSeek-V3.2 mendemonstrasikan bahwa pengembangan open dapat menyamai riset closed baik dalam capability maupun efisiensi, memvalidasi viabilitas open frontier AI dan kemungkinan akan mempercepat investasi dalam pengembangan model yang transparan.
References
Dokumentasi Teknis DeepSeek
DeepSeek-AI. "Laporan Teknis DeepSeek-V3." arXiv:2412.19437, Desember 2024.https://arxiv.org/abs/2412.19437
DeepSeek-AI. "Laporan Teknis dan Rilis Model DeepSeek-V3.2." DeepSeek Research, 2025.https://github.com/deepseek-ai/DeepSeek-V3
DeepSeek-AI. "Bobot Model DeepSeek-V3.2." Hugging Face Model Hub, 2025.https://huggingface.co/deepseek-ai/DeepSeek-V3
DeepSeek-AI. "Dokumentasi Platform dan API DeepSeek." Diakses 1 Desember 2025.https://platform.deepseek.com/docs
DeepSeek-AI. "Pengumuman Rilis DeepSeek-V3.2-Exp dan V3.2-Speciale." DeepSeek Blog, September 2025.https://www.deepseek.com/news
Harga dan Dokumentasi API
DeepSeek. "Dokumentasi Harga API." Diakses 1 Desember 2025.https://platform.deepseek.com/pricing
OpenAI. "Harga API." Diakses 1 Desember 2025.https://openai.com/api/pricing
OpenAI. "Syarat dan Ketentuan OpenAI." Diakses 1 Desember 2025.https://openai.com/policies/terms-of-use
Google Cloud. "Harga Vertex AI: Model Gemini." Diakses 1 Desember 2025.https://cloud.google.com/vertex-ai/generative-ai/pricing
Anthropic. "Harga API." Diakses 1 Desember 2025.https://www.anthropic.com/pricing
Anthropic. "Dokumentasi API Claude." Diakses 1 Desember 2025.https://docs.anthropic.com/en/api
Organisasi Benchmark dan Hasil Kompetisi
Mathematical Association of America. "American Invitational Mathematics Examination (AIME)." Diakses 1 Desember 2025.https://maa.org/math-competitions/invitational-competitions/aime
Harvard-MIT Mathematics Tournament. "About HMMT." Diakses 1 Desember 2025.https://www.hmmt.org
International Mathematical Olympiad. "About the IMO." Diakses 1 Desember 2025.https://www.imo-official.org/year_info.aspx?year=2025
Chinese Mathematical Olympiad Committee. "Chinese Mathematical Olympiad (CMO)." China Mathematical Society, 2025.
Mathematical Association of America. "William Lowell Putnam Mathematical Competition." Diakses 1 Desember 2025.https://maa.org/math-competitions/putnam-competition
Codeforces. "Competitive Programming Platform and Rating System." Diakses 1 Desember 2025.https://codeforces.com/ratings
"LiveCodeBench: Holistic and Contamination-Free Evaluation of Large Language Models for Code." Diakses 1 Desember 2025.https://livecodebench.github.io/leaderboard.html
Jimenez, Carlos E., et al. "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" Diakses 1 Desember 2025.https://www.swebench.com
Center for AI Safety. "Humanity's Last Exam: A Controversial and Adversarial Benchmark." Proyek benchmark penelitian, 2025.
Referensi Arsitektur dan Pelatihan
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention Is All You Need." Advances in Neural Information Processing Systems 30 (2017): 5998–6008.https://arxiv.org/abs/1706.03762
Fedus, William, Barret Zoph, and Noam Shazeer. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity." Journal of Machine Learning Research 23, no. 120 (2022): 1–39.https://jmlr.org/papers/v23/21-0998.html
Zoph, Barret, et al. "Designing Effective Sparse Expert Models." arXiv:2202.08906, February 2022.https://arxiv.org/abs/2202.08906
Infrastruktur dan Perangkat Keras GPU
NVIDIA. "Arsitektur NVIDIA H100 Tensor Core GPU." Dokumentasi NVIDIA Data Center, 2023.https://www.nvidia.com/en-us/data-center/h100
NVIDIA. "Lembar Data H100 Tensor Core GPU." Diakses 1 Desember 2025.https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet
Amazon Web Services. "Amazon EC2 P5 Instances (H100)." Diakses 1 Desember 2025.https://aws.amazon.com/ec2/instance-types/p5
Google Cloud. "Kalkulator Harga GPU." Diakses 1 Desember 2025.https://cloud.google.com/products/calculator
Microsoft Azure. "Ukuran Virtual Machine yang Dioptimalkan GPU." Diakses 1 Desember 2025.https://azure.microsoft.com/en-us/pricing/details/virtual-machines/linux
Lisensi Open Source
Open Source Initiative. "The MIT License." Diakses 1 Desember 2025.https://opensource.org/license/mit
Perbandingan Model dan Analisis Industri
OpenAI. "Introducing GPT-5: Our Most Capable Model." OpenAI Research Blog, 2025.https://openai.com/research/gpt-5
OpenAI. "GPT-5 System Card: Safety and Capabilities." Diakses 1 Desember 2025.https://openai.com/research/gpt-5-system-card
Google DeepMind. "Gemini 3: Our Most Capable AI Model Family." Google AI Blog, 2025.https://blog.google/technology/ai/google-gemini-ai-update
Google DeepMind. "Gemini 3 Technical Report." Diakses 1 Desember 2025.https://deepmind.google/technologies/gemini
Anthropic. "Claude 4.5 Sonnet: Enhanced Intelligence and Extended Context." Anthropic News, 2025.https://www.anthropic.com/news/claude-4-5-sonnet
Anthropic. "Claude Model Card: Claude 4.5 Sonnet." Diakses 1 Desember 2025.https://www.anthropic.com/claude
Meta AI. "The Llama 3 Herd of Models." arXiv:2407.21783, Juli 2024.https://arxiv.org/abs/2407.21783
Analisis Biaya Training Industri
Vance, Alyssa, dan Sam Manning. "Estimating Training Costs for Frontier Language Models." AI Economics Research Group, 2024. Analisis industri berdasarkan penggunaan GPU-hour yang diungkapkan, data harga cloud, dan pengumuman vendor.
"Large Language Model Training Costs Database." Epoch AI Research, 2024. Diakses 1 Desember 2025.https://epochai.org/blog/training-compute-of-frontier-ai-models-grows-by-4-5x-per-year
Catatan tentang Sumber
Benchmark performa mencerminkan evaluasi model resmi pada tes standar yang diselenggarakan oleh MAA (AIME), HMMT Organization, International Mathematical Olympiad, Codeforces, dan benchmark penelitian akademis (LiveCodeBench, SWE-bench). Harga API mencerminkan tarif yang dipublikasikan dari dokumentasi vendor per Desember 2025. Estimasi biaya training ($5,5 juta untuk DeepSeek V3 vs. $100 juta+ untuk model frontier pesaing) didasarkan pada penggunaan GPU-hour yang diungkapkan DeepSeek (2,788 juta jam H800) dan kalkulasi analis industri menggunakan harga GPU cloud. Spesifikasi arsitektur teknis diambil dari laporan teknis arXiv dan dokumentasi model resmi. Contoh kalkulasi biaya mengasumsikan pola workload aplikasi tipikal seperti yang didokumentasikan dalam pedoman penyedia API dan analisis perilaku cache.