Penskalaan Waktu Inferensi: Frontier Pelatihan Baru untuk Penalaran AI

Komputasi waktu uji muncul sebagai frontier penskalaan AI berikutnya. ThreadWeaver mencapai percepatan 1,5x. P1 memenangkan medali emas olimpiade fisika. DeepSeek-R1 menyamai o1 dengan biaya 70% lebih rendah. Implikasi infrastruktur.

Blake Crosley

Dec 12, 2025 6 min read Disclaimer

Penskalaan Waktu Inferensi: Frontier Pelatihan Baru untuk Penalaran AI

12 Desember 2025

Pembaruan Desember 2025: Penskalaan waktu inferensi telah muncul sebagai frontier riset dominan dalam penalaran AI. ThreadWeaver mencapai pengurangan latensi 1,5x sambil mempertahankan akurasi. P1 menjadi model open-source pertama yang memenangkan medali emas olimpiade fisika melalui RL dan agen waktu uji. DeepSeek-R1 menyamai OpenAI o1 dengan biaya 70% lebih rendah. Analis memproyeksikan inferensi akan mengklaim 75% dari total komputasi AI pada tahun 2030.

TL;DR

Paradigma penskalaan AI telah bergeser. Alih-alih melatih model yang lebih besar, peneliti kini mencapai penalaran state-of-the-art dengan menggunakan lebih banyak komputasi pada waktu inferensi. Wawasan intinya: membiarkan model "berpikir lebih lama" melalui chain-of-thought yang diperpanjang menghasilkan kemampuan penalaran yang tidak dapat dicapai oleh pelatihan saja. DeepSeek-R1 membuktikan ini dalam skala besar, menyamai o1 dengan menghasilkan 10-100x lebih banyak token per kueri. ThreadWeaver memparalelkan penalaran ini untuk mengurangi latensi. P1 menggabungkan pelatihan RL dengan agen waktu uji untuk meraih medali emas olimpiade fisika. Untuk infrastruktur, permintaan inferensi akan melampaui permintaan pelatihan sebesar 118x pada tahun 2026, mengubah pengadaan GPU menuju perangkat keras yang dioptimalkan untuk inferensi.

Apa yang Terjadi

Tiga terobosan riset menunjukkan kematangan penskalaan waktu inferensi:

DeepSeek-R1 (Januari 2025): DeepSeek merilis R1, membuktikan bahwa reinforcement learning murni dapat menghasilkan kemampuan penalaran yang menyamai OpenAI o1. Model ini meningkatkan akurasi benchmark AIME dari 15,6% menjadi 71% melalui penalaran chain-of-thought yang diperpanjang, mencapai 86,7% dengan majority voting.¹

Model Fisika P1 (November 2025): Peneliti merilis P1, keluarga model open-source pertama yang mencapai performa medali emas di International Physics Olympiad (IPhO 2025). P1-235B-A22B meraih skor 21,2/30 poin, menduduki peringkat ketiga di belakang Gemini-2.5-Pro dan GPT-5.²

ThreadWeaver (2025): ThreadWeaver memperkenalkan penalaran paralel, mencapai rata-rata percepatan 1,53x dalam latensi token sambil menyamai akurasi penalaran sekuensial. Pendekatan ini memungkinkan eksplorasi jalur penalaran secara bersamaan alih-alih chain-of-thought sekuensial.³

Mengapa Ini Penting untuk Infrastruktur

Model Mental: Penskalaan tradisional menginvestasikan komputasi pada waktu pelatihan (model lebih besar, data lebih banyak). Penskalaan waktu inferensi menginvestasikan komputasi pada waktu kueri (rantai penalaran lebih panjang, percobaan berganda, verifikasi mandiri). Model dengan 7B parameter dengan komputasi inferensi 100x dapat menyamai model 70B dengan inferensi standar. Implikasi infrastrukturnya sangat besar: kluster inferensi menjadi lebih penting daripada kluster pelatihan.

Inferensi Menjadi Bottleneck: Analis memproyeksikan inferensi akan melampaui permintaan komputasi pelatihan sebesar 118x pada tahun 2026. Pada tahun 2030, inferensi dapat mengklaim 75% dari total komputasi AI, mendorong investasi infrastruktur sebesar $7 triliun.⁴

Model Penalaran Mengonsumsi Lebih Banyak Token: DeepSeek-R1, o1, dan o3-mini menghasilkan "token jauh lebih banyak" dibandingkan model non-penalaran. Pengeluaran inferensi OpenAI tahun 2024 mencapai $2,3 miliar: 15 kali biaya pelatihan untuk GPT-4.⁵

Permintaan Infrastruktur GPU Melonjak: Jensen Huang menyatakan model penalaran generasi berikutnya membutuhkan "hingga 100 kali lebih banyak sumber daya komputasi."⁶ Pasar inferensi AI tumbuh dari $106B (2025) menjadi $255B (2030) dengan CAGR 19,2%.

Latensi Kembali Penting: Penalaran paralel ThreadWeaver mengatasi kendala kritis. Latensi penalaran sekuensial tumbuh sebanding dengan panjang rantai. Untuk aplikasi real-time, kecepatan inferensi menjadi keunggulan kompetitif.

Detail Teknis

Pendekatan DeepSeek-R1

DeepSeek-R1-Zero melatih penalaran melalui RL murni menggunakan Group Relative Policy Optimization (GRPO):⁷

Komponen	Detail
Metode Pelatihan	RL murni, tanpa supervised fine-tuning
Algoritma	GRPO (adaptasi PPO tanpa value function)
Wawasan Kunci	CoT diperpanjang pada inferensi menghasilkan penalaran
Performa AIME	15,6% → 71% (86,7% dengan majority voting)
Keunggulan Biaya	Biaya inferensi 70% lebih rendah dari model sebanding

Yang perlu dicatat, DeepSeek secara eksplisit mengkategorikan metode seperti Process Reward Models dan Monte Carlo Tree Search sebagai "percobaan yang tidak berhasil." Temuan ini menunjukkan RL murni dengan respons lebih panjang berfungsi sebagai penskalaan waktu inferensi implisit.⁸

Penalaran Paralel ThreadWeaver

ThreadWeaver memungkinkan jalur penalaran bersamaan alih-alih chain-of-thought sekuensial:⁹

Inovasi	Deskripsi
Parallel Trajectory Generator	Menghasilkan data CoT dengan anotasi paralel
Trie-Based Co-Design	Memungkinkan penalaran paralel tanpa memodifikasi position embeddings
Algoritma P-GRPO	Mengoptimalkan akurasi dan pengurangan latensi secara bersamaan

Performa pada basis Qwen3-8B:

Benchmark	ThreadWeaver	Sekuensial	Percepatan
AIME24	79,9%	78,3%	1,14x
AMC23	—	—	1,16x
MATH500	—	—	1,23x
OlympiadBench	—	—	1,21x
Minerva Math	—	—	1,53x

Model Fisika P1

P1 menggabungkan penskalaan waktu pelatihan dan waktu uji:¹⁰

Waktu Pelatihan (RL Post-Training): - Framework RL multi-tahap pada model bahasa dasar - Peningkatan penalaran progresif - Mengatasi reward sparsity dan entropy collapse

Waktu Uji (Agen PhysicsMinions): - Visual Studio: Analisis visual - Logic Studio: Penalaran logis - Review Studio: Verifikasi solusi - Refleksi multi-turn dan koreksi mandiri

Hasil pada IPhO 2025:

Model	Skor	Peringkat
Gemini-2.5-Pro	37,7	—
GPT-5	37,4	—
P1-235B + PhysicsMinions	38,4	1
P1-235B-A22B (standalone)	21,2/30	Emas

Proyeksi Komputasi Inferensi

Metrik	Nilai	Sumber
Pasar Inferensi 2025	$106B	MarketsandMarkets
Pasar Inferensi 2030	$255B	MarketsandMarkets
Pasar Chip Inferensi 2027	$102B	Reuters
Pangsa Inferensi dari Komputasi AI (2030)	75%	Analisis industri
Permintaan Pelatihan vs Inferensi (2026)	1:118	Estimasi analis
Pertumbuhan Komputasi AI Global (2025-2027)	10x	Prakiraan AI 2027

Implikasi Kebijakan dan Regulasi

Regulasi yang ada menggunakan ambang batas komputasi pelatihan (misalnya, 10^25 FLOPs EU AI Act). Namun, penskalaan waktu inferensi mengubah kalkulasinya:¹¹

Model dapat mencapai kemampuan tinggi melalui komputasi inferensi, bukan hanya pelatihan
Model terlatih yang lebih kecil dengan penalaran waktu uji ekstensif dapat melampaui kemampuan model ambang batas
Pembuat kebijakan berisiko "meremehkan dampak dunia nyata model" dengan hanya berfokus pada komputasi pelatihan

Apa Selanjutnya

2026: Permintaan inferensi diproyeksikan melampaui pelatihan sebesar 118x. Perencanaan pusat data bergeser menuju arsitektur yang dioptimalkan untuk inferensi.

2027: Komputasi relevan-AI global diproyeksikan mencapai 100M setara-H100 (pertumbuhan 10x dari Maret 2025).¹²

Berkelanjutan: Riset berlanjut pada penalaran paralel (ThreadWeaver), sistem multi-agen (PhysicsMinions), dan penalaran berbasis RL (DeepSeek, P1).

Pergeseran Infrastruktur: Infrastruktur inferensi yang dibangun khusus (NVIDIA Blackwell, TPU v5e, Groq LPUs) menjadi kategori komputasi dominan.

Poin-Poin Utama

Untuk perencana infrastruktur: - Inferensi diproyeksikan mengklaim 75% komputasi AI pada tahun 2030 - Model penalaran mengonsumsi 10-100x lebih banyak token dari model standar - Optimasi latensi (paralelisme gaya ThreadWeaver) menciptakan kebutuhan perangkat keras - Rencanakan beban kerja berat inferensi dalam pemodelan kapasitas

Untuk tim operasi: - NVIDIA Blackwell dioptimalkan untuk inferensi dalam skala besar (1,4 exaFLOPS per rak) - Pantau biaya inferensi, yang dapat melampaui biaya pelatihan 15x (per OpenAI 2024) - Penyetelan komputasi waktu uji memengaruhi tradeoff latensi dan biaya - Framework agen (PhysicsMinions) menambah overhead inferensi multi-turn

Untuk perencanaan strategis: - Rasio komputasi pelatihan vs inferensi bergeser secara dramatis - Model lebih kecil + inferensi berat dapat menyamai model terlatih lebih besar - DeepSeek-R1 menunjukkan keunggulan biaya 70% melalui efisiensi - Framework kebijakan mungkin berkembang melampaui ambang batas komputasi pelatihan

Referensi

Untuk infrastruktur GPU yang mendukung beban kerja AI intensif inferensi, hubungi Introl.

HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. ↩
arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." November 2025. ↩
ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. ↩
Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. ↩
NVIDIA. "AI Inference Solutions." 2025. ↩
Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. ↩
DeepSeek. "DeepSeek-R1 Technical Report." January 2025. ↩
ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. ↩
Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. ↩
AI 2027. "Compute Forecast." 2025. ↩
MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. ↩
NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. ↩
arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. ↩
Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. ↩

Penskalaan Waktu Inferensi: Frontier Pelatihan Baru untuk Penalaran AI

TL;DR

Apa yang Terjadi

Mengapa Ini Penting untuk Infrastruktur

Detail Teknis

Pendekatan DeepSeek-R1

Penalaran Paralel ThreadWeaver

Model Fisika P1

Proyeksi Komputasi Inferensi

Implikasi Kebijakan dan Regulasi

Apa Selanjutnya

Poin-Poin Utama

Referensi

You Might Also Like

AIOps untuk Pusat Data: Menggunakan LLM untuk Mengelola Infr...

Load Balancing untuk Inferensi AI: Mendistribusikan Perminta...

Komputasi Terdisagregasi untuk AI: Arsitektur Infrastruktur ...

Minta Penawaran_

Permintaan Diterima_