DeepSeek V3.2 Mencapai Penalaran Tingkat Emas IMO: AI Tiongkok Menyamai Performa Terdepan
11 Desember 2025
Pembaruan Desember 2025: DeepSeek merilis V3.2 dan V3.2-Speciale pada 1 Desember 2025. Varian Speciale mencetak 35/42 pada masalah benchmark IMO 2025, menyamai penalaran Gemini 3 Pro dengan biaya inferensi 70% lebih rendah.
DeepSeek merilis dua model pada 1 Desember 2025: DeepSeek-V3.2 dan DeepSeek-V3.2-Speciale.1 Varian Speciale mencetak 35 dari 42 poin pada masalah benchmark IMO 2025, meraih status setara medali emas dan mendemonstrasikan kemampuan penalaran matematika yang menyamai sistem AI terbaik dunia.2
Pembatasan ekspor AS membatasi akses DeepSeek ke GPU NVIDIA mutakhir. Meskipun ada kendala ini, perusahaan terus memproduksi model yang bersaing atau melampaui alternatif Barat dengan biaya yang jauh lebih rendah.3 Peluncuran ini memvalidasi pendekatan efisiensi-pertama Tiongkok terhadap pengembangan AI.
Spesifikasi Teknis
Kedua model V3.2 memiliki 685 miliar total parameter dengan bobot terbuka di bawah lisensi MIT.4 Bobot model lengkap memerlukan sekitar 690GB penyimpanan. Menjalankan model memerlukan:
- Deployment multi-GPU: 8x H100 80GB GPU dengan paralelisme tensor
- Inferensi terkuantisasi: Kuantisasi INT4 mengurangi kebutuhan menjadi 4x A100 80GB
- API cloud: DeepSeek menawarkan inferensi yang dihosting seharga $0.70/M token
Model mendukung jendela konteks 128.000 token, memungkinkan analisis dokumen panjang, basis kode, dan makalah penelitian dalam satu prompt.
V3.2-Speciale memperkenalkan penalaran terintegrasi dalam penggunaan alat. Model mendukung mode "berpikir" dan "tidak berpikir" untuk panggilan alat, memungkinkannya menalar melalui alur kerja agentik multi-langkah sebelum mengeksekusi tindakan.5 Misalnya, saat mengkueri database, Speciale dapat menalar tentang optimasi kueri dan interpretasi hasil dalam satu rantai inferensi daripada memerlukan beberapa panggilan API.
Proses pelatihan menggunakan pipeline pembuatan data sintetis yang mencakup lebih dari 1.800 lingkungan dan lebih dari 85.000 instruksi kompleks.6 Data sintetis mengurangi ketergantungan pada anotasi manusia yang mahal sambil memungkinkan pelatihan pada skenario yang sulit dikumpulkan secara organik.
Performa Benchmark
DeepSeek-V3.2-Speciale mencapai hasil tingkat emas di beberapa benchmark kompetisi:7
| Benchmark | Skor | Konteks |
|---|---|---|
| Masalah IMO 2025 | 35/42 poin | Ambang medali emas |
| Olimpiade Matematika Tiongkok | Tingkat emas | Kategori performa teratas |
| Masalah IOI 2025 | 492/600 poin | Emas, setara peringkat 10 |
| Terminal Bench 2.0 | 46.4% | Melampaui GPT-5-High (35.2%) |
Hasil Terminal Bench 2.0 mengukur alur kerja pengkodean kompleks termasuk refactoring multi-file, debugging, dan pembuatan tes.8 DeepSeek mengungguli GPT-5-High sebesar 11 poin persentase pada tugas rekayasa perangkat lunak praktis.
Catatan: Skor ini mencerminkan masalah benchmark bergaya kompetisi resmi, bukan performa di acara kompetisi aktual 2025.
Ekonomi Biaya
Harga DeepSeek V3.2 mewakili pengurangan 70% dari model V3.1-Terminus sebelumnya:9
| Model | Token Input | Token Output |
|---|---|---|
| DeepSeek V3.2 | $0.14/M | $0.70/M |
| V3.1-Terminus (sebelumnya) | $0.48/M | $2.40/M |
Sebagai perbandingan, harga penyedia Barat saat ini:10
| Penyedia | Input | Output |
|---|---|---|
| Claude Sonnet 4 | $3.00/M | $15.00/M |
| GPT-4.5 | $2.50/M | $10.00/M |
| Gemini 3 Pro | $1.25/M | $5.00/M |
| DeepSeek V3.2 | $0.14/M | $0.70/M |
Organisasi yang memproses 10 miliar token output per bulan akan menghabiskan sekitar $7 juta per tahun dengan DeepSeek versus $50-150 juta dengan alternatif Barat.11 Kesenjangan biaya melebar untuk beban kerja intensif output seperti pembuatan kode dan konten format panjang.
Implikasi Infrastruktur
DeepSeek melatih V3.2 pada GPU H800, varian khusus Tiongkok dengan bandwidth memori yang dikurangi (2.0TB/s vs 3.35TB/s untuk H100).12 Pencapaian ini mendemonstrasikan bahwa optimasi perangkat lunak dapat mengkompensasi keterbatasan perangkat keras.
Teknik efisiensi utama:13
Arsitektur Mixture-of-Experts (MoE): Hanya 37 miliar parameter yang diaktifkan per permintaan inferensi meskipun ada 685 miliar total parameter. MoE mengurangi komputasi sekitar 30% dibandingkan model padat yang setara.
Multi-head Latent Attention (MLA): Mengompres kebutuhan cache key-value, mengurangi bottleneck bandwidth memori pada perangkat keras H800 yang terbatas bandwidth.
Pelatihan presisi campuran FP8: Mengurangi kebutuhan memori dan mempercepat pelatihan pada GPU arsitektur Hopper.
Organisasi yang mengevaluasi infrastruktur AI harus mengakui bahwa kesuksesan DeepSeek menantang asumsi tentang kebutuhan komputasi untuk kemampuan terdepan. Optimasi perangkat lunak mungkin memberikan ROI lebih baik daripada akumulasi GPU mentah untuk banyak beban kerja.14
Deployment Enterprise
AWS, Azure, dan Google Cloud semuanya menawarkan deployment model DeepSeek, memvalidasi keandalan tingkat enterprise.15 Ketersediaan hyperscaler menghilangkan gesekan deployment yang mungkin membatasi adopsi model asal Tiongkok.
Organisasi yang mempertimbangkan deployment DeepSeek harus mengevaluasi:
- Kedaulatan data: Bobot model terbuka, tetapi penggunaan API merutekan data melalui infrastruktur DeepSeek
- Persyaratan kepatuhan: Beberapa industri yang diregulasi mungkin membatasi penggunaan model Tiongkok
- Karakteristik performa: DeepSeek unggul dalam penalaran dan pengkodean tetapi mungkin kurang dalam tugas kreatif atau bernuansa
Lanskap Kompetitif
Peluncuran V3.2 tiba satu minggu sebelum administrasi Trump mengumumkan pelonggaran pembatasan ekspor H200.16 Waktunya menggarisbawahi paradoks kebijakan: kontrol ekspor yang dimaksudkan untuk memperlambat pengembangan AI Tiongkok mungkin telah mempercepat inovasi dengan memaksa peningkatan efisiensi.
Model open-source Tiongkok tumbuh dari 1.2% penggunaan global pada akhir 2024 menjadi hampir 30% pada 2025.17 Pergeseran ini mewakili pencapaian teknologi dan disrupsi pasar bagi perusahaan AS yang berasumsi bahwa hambatan regulasi akan melindungi keunggulan kompetitif.
Perusahaan AI Barat menghadapi tekanan untuk menyamai efisiensi DeepSeek atau membenarkan harga premium melalui kemampuan superior. Kluster peluncuran November 2025 (GPT-5.1, Claude Opus 4.5, Gemini 3 Pro, Grok 4.1) mendemonstrasikan kemajuan terdepan yang berkelanjutan tetapi pada titik harga yang jauh lebih tinggi.18
Claude Opus 4.5 memimpin benchmark pengkodean dengan 72.5% performa SWE-bench, sementara Gemini 3 Pro mencapai skor Elo LMArena tertinggi yang pernah dicatat yaitu 1501.19 Model Barat mempertahankan keunggulan pada kemampuan spesifik bahkan saat DeepSeek menutup kesenjangan tujuan umum.
Poin Penting
Untuk insinyur ML: - V3.2-Speciale mencapai tingkat emas IMO (35/42 pada masalah benchmark) - 685B parameter, konteks 128K, bobot terbuka berlisensi MIT - Memerlukan 8x H100 80GB atau deployment terkuantisasi pada 4x A100 80GB
Untuk perencana infrastruktur: - Model Tiongkok mendemonstrasikan kemampuan terdepan pada perangkat keras yang dibatasi ekspor (H800) - Optimasi perangkat lunak (MoE, MLA, FP8) mengkompensasi kendala perangkat keras - Pertimbangkan deployment hibrid: model Barat untuk kemampuan maksimum, DeepSeek untuk optimasi biaya
Untuk perencanaan strategis: - Model open-source Tiongkok mencapai 30% penggunaan global pada 2025 - Ketersediaan hyperscaler (AWS, Azure, GCP) memvalidasi deployment enterprise - Kontrol ekspor mungkin telah mempercepat daripada mencegah kemajuan AI Tiongkok
Referensi
Untuk dukungan deployment infrastruktur AI, hubungi Introl.
-
DeepSeek API Docs. "DeepSeek-V3.2 Release Notes." 1 Desember 2025. ↩
-
UNU Campus Computing Centre. "Inside DeepSeek End-of-Year AI Breakthrough." Desember 2025. ↩
-
Bloomberg. "DeepSeek Debuts New AI Models to Rival Google and OpenAI." 1 Desember 2025. ↩
-
Simon Willison. "DeepSeek-V3.2 Technical Analysis." 1 Desember 2025. ↩
-
DeepSeek API Docs. "V3.2 Tool Use with Thinking Mode." Desember 2025. ↩
-
Semiconductor Engineering. "DeepSeek New AI Models: V3.2 and V3.2-Speciale." Desember 2025. ↩
-
WinBuzzer. "New DeepSeek V3.2 Speciale Model Claims Reasoning Parity with Gemini 3 Pro." 1 Desember 2025. ↩
-
VentureBeat. "DeepSeek drops two AI models that rival GPT-5 on coding benchmarks." Desember 2025. ↩
-
DeepSeek API Docs. "Pricing: V3.2 vs V3.1-Terminus." Desember 2025. ↩
-
Artificial Analysis. "LLM Pricing Comparison December 2025." Desember 2025. ↩
-
Sebastian Raschka. "A Technical Tour of the DeepSeek Models from V3 to V3.2." Desember 2025. ↩
-
DEV Community. "DeepSeek-V3.2 Complete Technical Analysis." Desember 2025. ↩
-
DeepSeek. "V3.2 Technical Report: Architecture and Training." Desember 2025. ↩
-
CSIS. "Chinese AI Efficiency and Infrastructure Economics." Desember 2025. ↩
-
AWS, Azure, Google Cloud. "DeepSeek Model Availability." Desember 2025. ↩
-
Semafor. "Trump allows H200 exports to China with 25% surcharge." 8 Desember 2025. ↩
-
Stanford HAI. "2025 AI Index Report." 2025. ↩
-
Shakudo. "Top 9 Large Language Models as of December 2025." Desember 2025. ↩
-
OverChat. "Best AI Models 2025: Claude, Gemini, GPT Compared." Desember 2025. ↩