Penskalaan Waktu Inferensi: Frontier Pelatihan Baru untuk Penalaran AI
12 Desember 2025
Pembaruan Desember 2025: Penskalaan waktu inferensi telah muncul sebagai frontier riset dominan dalam penalaran AI. ThreadWeaver mencapai pengurangan latensi 1,5x sambil mempertahankan akurasi. P1 menjadi model open-source pertama yang memenangkan medali emas olimpiade fisika melalui RL dan agen waktu uji. DeepSeek-R1 menyamai OpenAI o1 dengan biaya 70% lebih rendah. Analis memproyeksikan inferensi akan mengklaim 75% dari total komputasi AI pada tahun 2030.
TL;DR
Paradigma penskalaan AI telah bergeser. Alih-alih melatih model yang lebih besar, peneliti kini mencapai penalaran state-of-the-art dengan menggunakan lebih banyak komputasi pada waktu inferensi. Wawasan intinya: membiarkan model "berpikir lebih lama" melalui chain-of-thought yang diperpanjang menghasilkan kemampuan penalaran yang tidak dapat dicapai oleh pelatihan saja. DeepSeek-R1 membuktikan ini dalam skala besar, menyamai o1 dengan menghasilkan 10-100x lebih banyak token per kueri. ThreadWeaver memparalelkan penalaran ini untuk mengurangi latensi. P1 menggabungkan pelatihan RL dengan agen waktu uji untuk meraih medali emas olimpiade fisika. Untuk infrastruktur, permintaan inferensi akan melampaui permintaan pelatihan sebesar 118x pada tahun 2026, mengubah pengadaan GPU menuju perangkat keras yang dioptimalkan untuk inferensi.
Apa yang Terjadi
Tiga terobosan riset menunjukkan kematangan penskalaan waktu inferensi:
DeepSeek-R1 (Januari 2025): DeepSeek merilis R1, membuktikan bahwa reinforcement learning murni dapat menghasilkan kemampuan penalaran yang menyamai OpenAI o1. Model ini meningkatkan akurasi benchmark AIME dari 15,6% menjadi 71% melalui penalaran chain-of-thought yang diperpanjang, mencapai 86,7% dengan majority voting.1
Model Fisika P1 (November 2025): Peneliti merilis P1, keluarga model open-source pertama yang mencapai performa medali emas di International Physics Olympiad (IPhO 2025). P1-235B-A22B meraih skor 21,2/30 poin, menduduki peringkat ketiga di belakang Gemini-2.5-Pro dan GPT-5.2
ThreadWeaver (2025): ThreadWeaver memperkenalkan penalaran paralel, mencapai rata-rata percepatan 1,53x dalam latensi token sambil menyamai akurasi penalaran sekuensial. Pendekatan ini memungkinkan eksplorasi jalur penalaran secara bersamaan alih-alih chain-of-thought sekuensial.3
Mengapa Ini Penting untuk Infrastruktur
Model Mental: Penskalaan tradisional menginvestasikan komputasi pada waktu pelatihan (model lebih besar, data lebih banyak). Penskalaan waktu inferensi menginvestasikan komputasi pada waktu kueri (rantai penalaran lebih panjang, percobaan berganda, verifikasi mandiri). Model dengan 7B parameter dengan komputasi inferensi 100x dapat menyamai model 70B dengan inferensi standar. Implikasi infrastrukturnya sangat besar: kluster inferensi menjadi lebih penting daripada kluster pelatihan.
Inferensi Menjadi Bottleneck: Analis memproyeksikan inferensi akan melampaui permintaan komputasi pelatihan sebesar 118x pada tahun 2026. Pada tahun 2030, inferensi dapat mengklaim 75% dari total komputasi AI, mendorong investasi infrastruktur sebesar $7 triliun.4
Model Penalaran Mengonsumsi Lebih Banyak Token: DeepSeek-R1, o1, dan o3-mini menghasilkan "token jauh lebih banyak" dibandingkan model non-penalaran. Pengeluaran inferensi OpenAI tahun 2024 mencapai $2,3 miliar: 15 kali biaya pelatihan untuk GPT-4.5
Permintaan Infrastruktur GPU Melonjak: Jensen Huang menyatakan model penalaran generasi berikutnya membutuhkan "hingga 100 kali lebih banyak sumber daya komputasi."6 Pasar inferensi AI tumbuh dari $106B (2025) menjadi $255B (2030) dengan CAGR 19,2%.
Latensi Kembali Penting: Penalaran paralel ThreadWeaver mengatasi kendala kritis. Latensi penalaran sekuensial tumbuh sebanding dengan panjang rantai. Untuk aplikasi real-time, kecepatan inferensi menjadi keunggulan kompetitif.
Detail Teknis
Pendekatan DeepSeek-R1
DeepSeek-R1-Zero melatih penalaran melalui RL murni menggunakan Group Relative Policy Optimization (GRPO):7
| Komponen | Detail |
|---|---|
| Metode Pelatihan | RL murni, tanpa supervised fine-tuning |
| Algoritma | GRPO (adaptasi PPO tanpa value function) |
| Wawasan Kunci | CoT diperpanjang pada inferensi menghasilkan penalaran |
| Performa AIME | 15,6% → 71% (86,7% dengan majority voting) |
| Keunggulan Biaya | Biaya inferensi 70% lebih rendah dari model sebanding |
Yang perlu dicatat, DeepSeek secara eksplisit mengkategorikan metode seperti Process Reward Models dan Monte Carlo Tree Search sebagai "percobaan yang tidak berhasil." Temuan ini menunjukkan RL murni dengan respons lebih panjang berfungsi sebagai penskalaan waktu inferensi implisit.8
Penalaran Paralel ThreadWeaver
ThreadWeaver memungkinkan jalur penalaran bersamaan alih-alih chain-of-thought sekuensial:9
| Inovasi | Deskripsi |
|---|---|
| Parallel Trajectory Generator | Menghasilkan data CoT dengan anotasi paralel |
| Trie-Based Co-Design | Memungkinkan penalaran paralel tanpa memodifikasi position embeddings |
| Algoritma P-GRPO | Mengoptimalkan akurasi dan pengurangan latensi secara bersamaan |
Performa pada basis Qwen3-8B:
| Benchmark | ThreadWeaver | Sekuensial | Percepatan |
|---|---|---|---|
| AIME24 | 79,9% | 78,3% | 1,14x |
| AMC23 | — | — | 1,16x |
| MATH500 | — | — | 1,23x |
| OlympiadBench | — | — | 1,21x |
| Minerva Math | — | — | 1,53x |
Model Fisika P1
P1 menggabungkan penskalaan waktu pelatihan dan waktu uji:10
Waktu Pelatihan (RL Post-Training): - Framework RL multi-tahap pada model bahasa dasar - Peningkatan penalaran progresif - Mengatasi reward sparsity dan entropy collapse
Waktu Uji (Agen PhysicsMinions): - Visual Studio: Analisis visual - Logic Studio: Penalaran logis - Review Studio: Verifikasi solusi - Refleksi multi-turn dan koreksi mandiri
Hasil pada IPhO 2025:
| Model | Skor | Peringkat |
|---|---|---|
| Gemini-2.5-Pro | 37,7 | — |
| GPT-5 | 37,4 | — |
| P1-235B + PhysicsMinions | 38,4 | 1 |
| P1-235B-A22B (standalone) | 21,2/30 | Emas |
Proyeksi Komputasi Inferensi
| Metrik | Nilai | Sumber |
|---|---|---|
| Pasar Inferensi 2025 | $106B | MarketsandMarkets |
| Pasar Inferensi 2030 | $255B | MarketsandMarkets |
| Pasar Chip Inferensi 2027 | $102B | Reuters |
| Pangsa Inferensi dari Komputasi AI (2030) | 75% | Analisis industri |
| Permintaan Pelatihan vs Inferensi (2026) | 1:118 | Estimasi analis |
| Pertumbuhan Komputasi AI Global (2025-2027) | 10x | Prakiraan AI 2027 |
Implikasi Kebijakan dan Regulasi
Regulasi yang ada menggunakan ambang batas komputasi pelatihan (misalnya, 10^25 FLOPs EU AI Act). Namun, penskalaan waktu inferensi mengubah kalkulasinya:11
- Model dapat mencapai kemampuan tinggi melalui komputasi inferensi, bukan hanya pelatihan
- Model terlatih yang lebih kecil dengan penalaran waktu uji ekstensif dapat melampaui kemampuan model ambang batas
- Pembuat kebijakan berisiko "meremehkan dampak dunia nyata model" dengan hanya berfokus pada komputasi pelatihan
Apa Selanjutnya
2026: Permintaan inferensi diproyeksikan melampaui pelatihan sebesar 118x. Perencanaan pusat data bergeser menuju arsitektur yang dioptimalkan untuk inferensi.
2027: Komputasi relevan-AI global diproyeksikan mencapai 100M setara-H100 (pertumbuhan 10x dari Maret 2025).12
Berkelanjutan: Riset berlanjut pada penalaran paralel (ThreadWeaver), sistem multi-agen (PhysicsMinions), dan penalaran berbasis RL (DeepSeek, P1).
Pergeseran Infrastruktur: Infrastruktur inferensi yang dibangun khusus (NVIDIA Blackwell, TPU v5e, Groq LPUs) menjadi kategori komputasi dominan.
Poin-Poin Utama
Untuk perencana infrastruktur: - Inferensi diproyeksikan mengklaim 75% komputasi AI pada tahun 2030 - Model penalaran mengonsumsi 10-100x lebih banyak token dari model standar - Optimasi latensi (paralelisme gaya ThreadWeaver) menciptakan kebutuhan perangkat keras - Rencanakan beban kerja berat inferensi dalam pemodelan kapasitas
Untuk tim operasi: - NVIDIA Blackwell dioptimalkan untuk inferensi dalam skala besar (1,4 exaFLOPS per rak) - Pantau biaya inferensi, yang dapat melampaui biaya pelatihan 15x (per OpenAI 2024) - Penyetelan komputasi waktu uji memengaruhi tradeoff latensi dan biaya - Framework agen (PhysicsMinions) menambah overhead inferensi multi-turn
Untuk perencanaan strategis: - Rasio komputasi pelatihan vs inferensi bergeser secara dramatis - Model lebih kecil + inferensi berat dapat menyamai model terlatih lebih besar - DeepSeek-R1 menunjukkan keunggulan biaya 70% melalui efisiensi - Framework kebijakan mungkin berkembang melampaui ambang batas komputasi pelatihan
Referensi
Untuk infrastruktur GPU yang mendukung beban kerja AI intensif inferensi, hubungi Introl.
-
HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. ↩
-
arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." November 2025. ↩
-
ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. ↩
-
Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. ↩
-
NVIDIA. "AI Inference Solutions." 2025. ↩
-
Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. ↩
-
DeepSeek. "DeepSeek-R1 Technical Report." January 2025. ↩
-
ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. ↩
-
Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. ↩
-
AI 2027. "Compute Forecast." 2025. ↩
-
MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. ↩
-
NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. ↩
-
arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. ↩
-
Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. ↩