Ekonomi Unit Inferensi: Biaya Sebenarnya Per Juta Token
Diperbarui 8 Desember 2025
Pembaruan Desember 2025: Biaya inferensi LLM turun 10x per tahun—lebih cepat dari komputasi PC selama revolusi mikroprosesor atau bandwidth selama era dotcom. Performa setara GPT-4 kini hanya $0,40/juta token dibanding $20 di akhir 2022. Harga cloud H100 stabil di $2,85-$3,50/jam setelah penurunan 64-75% dari puncaknya. DeepSeek mengguncang pasar dengan harga 90% lebih rendah dari pemain lama. Titik impas self-hosted membutuhkan utilisasi GPU 50%+ untuk model 7B, 10%+ untuk model 13B. Kuantisasi mengurangi biaya operasional 60-70%. Speculative decoding memangkas latensi 2-3x.
Pasar inferensi LLM menentang ekonomi teknologi konvensional. Harga turun lebih cepat dari komputasi PC selama revolusi mikroprosesor atau bandwidth selama era dotcom—performa setara menjadi 10x lebih murah setiap tahun.¹ Kemampuan yang dulu berharga $20 per juta token di akhir 2022 kini hanya $0,40.² Namun organisasi masih kesulitan memahami biaya inferensi sebenarnya karena harga berbasis token menyembunyikan realitas infrastruktur, utilisasi GPU menentukan ekonomi unit aktual, dan teknik optimasi menciptakan variasi efisiensi biaya hingga sepuluh kali lipat. Menguasai ekonomi inferensi menentukan apakah deployment AI menghasilkan nilai atau menguras modal.
Lanskap harga inferensi di Desember 2025
Harga API membentang tiga orde magnitudo tergantung kemampuan model, penyedia, dan optimasi. Memahami lanskap saat ini memberikan konteks untuk pengambilan keputusan ekonomis.
Model tier budget kini hanya biaya sepersekian sen per juta token. Gemini Flash-Lite dari Google memimpin di $0,075 per juta token input dan $0,30 per juta token output.³ Model open-source melalui penyedia seperti Together.ai atau Hyperbolic bahkan lebih murah—Llama 3.2 3B berjalan di $0,06 per juta token, mencapai skor MMLU 42 dengan 1/1000 biaya tiga tahun lalu.⁴
Model produksi tier menengah menyeimbangkan kemampuan dengan biaya. Claude Sonnet 4 dihargai $3 per juta token input dan $15 per juta token output.⁵ Model R1 dari DeepSeek mengguncang pasar di $0,55 input dan $2,19 output per juta token—90% di bawah kompetitor Barat untuk kemampuan penalaran sebanding.⁶ Penyedia Tiongkok secara konsisten memangkas harga pemain Barat, menciptakan tekanan harga yang menguntungkan semua pembeli.
Model kemampuan frontier mematok harga premium. Claude Opus 4 berharga $15 per juta token input dan $75 per juta token output.⁷ GPT-4 dan model frontier serupa dihargai serupa, dijustifikasi oleh kemampuan yang tidak dapat direplikasi model lebih kecil berapa pun optimasi biayanya.
Variasi penyedia menambah kompleksitas. Untuk model identik, harga bervariasi 10x antara penyedia termurah dan termahal.⁸ Satu model bisa berharga $0,90 per juta token dari penyedia termurah, $3,50 di median, dan $9,50 dari termahal. Berbelanja lintas penyedia secara signifikan memengaruhi ekonomi sebelum optimasi teknis apa pun dimulai.
Asimetri harga token output mencerminkan biaya aktual. OpenAI, Anthropic, dan Google menghargai token output 3-5x lebih tinggi dari token input karena generasi output memerlukan pemrosesan sekuensial sementara pemrosesan input dapat diparalelkan secara efisien.⁹ Aplikasi yang menghasilkan output panjang menghadapi ekonomi berbeda dari yang memproses input panjang dengan respons singkat.
Memahami biaya infrastruktur GPU sebenarnya
Di balik harga API terdapat infrastruktur GPU dengan struktur biayanya sendiri. Memahami ekonomi ini memungkinkan keputusan build-versus-buy yang terinformasi.
Biaya akuisisi hardware dimulai tinggi dan terus terakumulasi. GPU NVIDIA H100 berharga $25.000-$40.000 per kartu, dengan sistem server 8-GPU lengkap mencapai $200.000-$400.000 termasuk infrastruktur.¹⁰ Biaya manufaktur NVIDIA sekitar $3.320 per H100—kesenjangan antara biaya produksi dan harga jual mencerminkan margin berbasis permintaan yang baru belakangan mulai moderat.
Tarif sewa GPU cloud telah stabil setelah penurunan dramatis. Instance H100 SXM berkisar dari $1,49/jam (Hyperbolic) hingga $6,98/jam (Azure), dengan sebagian besar penyedia berkerumun di sekitar $2,85-$3,50/jam setelah penurunan 64-75% dari harga puncak.¹¹ Kapasitas reserved mengurangi tarif lebih lanjut—Lambda Labs menawarkan $1,85/jam dan Hyperstack mulai dari $1,90/jam dengan komitmen.
Biaya daya dan pendinginan menambah beban hardware. Setiap H100 mengonsumsi hingga 700W di bawah beban. Cluster multi-GPU memerlukan unit distribusi daya khusus yang berpotensi menelan biaya $10.000-$50.000 untuk upgrade fasilitas.¹² Infrastruktur pendingin cair atau sistem HVAC yang ditingkatkan menambah $15.000-$100.000 tergantung skala. Biaya-biaya ini diamortisasi sepanjang jam GPU tetapi secara signifikan memengaruhi ekonomi kepemilikan total.
Overhead operasional menjembatani kesenjangan antara sewa hardware dan biaya aktual. Dengan memperhitungkan pendinginan, fasilitas, dan pemeliharaan, sekitar $2-7 per jam ditambahkan ke tarif sewa GPU mentah, membawa biaya operasional 8×H100 sebenarnya menjadi $8-$15/jam ketika diamortisasi dengan benar.¹³ Organisasi yang membandingkan sewa cloud dengan harga API harus memasukkan biaya tersembunyi ini untuk membuat perbandingan yang valid.
Persamaan utilisasi yang menentukan kelayakan
Utilisasi GPU menentukan apakah inferensi self-hosted masuk akal secara ekonomi. Membayar GPU yang berjalan di utilisasi 10% mengubah $0,013 per seribu token menjadi $0,13—lebih mahal dari API premium.¹⁴
Analisis titik impas tergantung pada ukuran model dan target utilisasi. Hosting model 7B memerlukan sekitar 50% utilisasi agar lebih murah dari GPT-3.5 Turbo.¹⁵ Model 13B mencapai paritas biaya dengan GPT-4-turbo hanya di 10% utilisasi karena premium kemampuan model lebih besar menjustifikasi investasi infrastruktur lebih tinggi. Insight kritis: model lebih besar mencapai titik impas di utilisasi lebih rendah karena mereka menggantikan alternatif API yang lebih mahal.
Pola trafik menentukan utilisasi yang dapat dicapai. Organisasi dengan beban kerja konsisten dan terprediksi mencapai utilisasi lebih tinggi dari yang memiliki permintaan sporadis. Aplikasi consumer-facing dengan siklus trafik harian membuang kapasitas GPU selama jam sepi kecuali beban kerja dapat digeser atau infrastruktur diskalakan secara dinamis.
Ambang batas volume request menetapkan skala minimum yang layak. Analisis menunjukkan kebutuhan lebih dari 8.000 percakapan per hari sebelum infrastruktur self-hosted lebih murah dari solusi terkelola.¹⁶ Di bawah ambang ini, kompleksitas operasional dan biaya tetap self-hosting melebihi potensi penghematan.
Peluang pemrosesan batch meningkatkan ekonomi utilisasi. Organisasi dengan beban kerja yang dapat ditunda—analisis offline, batch embedding, pemrosesan dataset—dapat mengagregasi permintaan ke jendela utilisasi tinggi, meningkatkan utilisasi efektif bahkan dengan trafik real-time yang bervariasi. Mencampur beban kerja real-time dan batch pada infrastruktur bersama mengoptimalkan efisiensi modal.
Breakdown struktur biaya untuk deployment produksi
Biaya inferensi produksi terurai menjadi komponen yang dapat dioptimasi secara individual.
Pemuatan model dan memori mengonsumsi sumber daya tetap terlepas dari trafik. Model 70B parameter dalam FP16 memerlukan sekitar 140GB memori GPU—melebihi kapasitas GPU tunggal dan mewajibkan konfigurasi multi-GPU.¹⁷ Biaya memori berskala dengan ukuran model, bukan penggunaan, menciptakan ambang infrastruktur minimum terlepas dari volume trafik.
Komputasi per token menggerakkan biaya marginal selama inferensi. Komputasi forward pass berskala dengan arsitektur model—mekanisme attention khususnya untuk konteks panjang. Biaya komputasi turun dengan batching karena operasi matriks menjadi lebih efisien di ukuran batch lebih besar, mengamortisasi overhead ke lebih banyak token.
Memori KV cache tumbuh dengan panjang konteks dan request bersamaan. Setiap request aktif mempertahankan cache key-value yang mengonsumsi memori proporsional dengan panjang konteks. Aplikasi konteks panjang menghadapi tekanan memori yang membatasi request bersamaan, menurunkan throughput dan meningkatkan biaya per-token. Manajemen KV cache merupakan target optimasi utama.
I/O jaringan dan storage memengaruhi deployment multi-GPU dan terdistribusi. Komunikasi inter-GPU untuk tensor parallelism, pemuatan bobot model dari storage, dan transmisi hasil semuanya mengonsumsi sumber daya. Networking bandwidth tinggi (NVLink, InfiniBand) mengurangi bottleneck I/O tetapi meningkatkan investasi infrastruktur.
Overhead operasional mencakup monitoring, logging, keamanan, dan manajemen. Sistem produksi memerlukan infrastruktur observability, personel on-call, dan upaya optimasi berkelanjutan. Organisasi sering meremehkan biaya "lunak" ini ketika membandingkan self-hosted dengan alternatif API.
Teknik optimasi yang mentransformasi ekonomi
Optimasi teknis dapat mengurangi biaya inferensi 60-70% atau lebih, mentransformasi ekonomi marginal menjadi keunggulan berkelanjutan.¹⁸
Kuantisasi mengurangi presisi bobot model dari floating point 32-bit ke representasi 8-bit atau 4-bit. Teknik ini menyusutkan ukuran model 4-8x sambil mempertahankan akurasi yang dapat diterima.¹⁹ Kuantisasi 8-bit mengurangi penggunaan memori 50% dengan kehilangan akurasi sekitar 1%. Kuantisasi 4-bit mencapai pengurangan ukuran 75% sambil mempertahankan performa kompetitif untuk banyak aplikasi. Dukungan FP4 GPU Blackwell memungkinkan peningkatan performa 4x dari kuantisasi saja.
Continuous batching mengelompokkan request secara dinamis alih-alih menunggu penyelesaian batch tetap. Batching tradisional menunggu urutan terpanjang selesai sebelum memproses request baru. Continuous batching mengeluarkan urutan yang selesai segera dan memulai request baru sementara yang lain masih dalam proses.²⁰ Teknik ini secara dramatis meningkatkan utilisasi GPU untuk beban kerja dengan panjang urutan bervariasi—tepat pola yang ditunjukkan sebagian besar deployment produksi.
Speculative decoding menggunakan model "draft" kecil untuk memprediksi beberapa token yang diperiksa model "verifikasi" lebih besar secara paralel.²¹ Ketika prediksi terbukti benar, beberapa token dihasilkan per forward pass alih-alih standar satu token. Teknik ini mengurangi latensi 2-3x untuk aplikasi di mana model kecil dapat secara akurat memprediksi output model lebih besar—sangat efektif untuk domain terbatas atau output terstruktur.
Optimasi KV cache termasuk PagedAttention mengelola memori cache seperti virtual memory, mengurangi fragmentasi dan memungkinkan konkurensi lebih tinggi.²² Teknik kompresi cache mengurangi footprint memori lebih lanjut. Prefix caching menghindari rekomputasi ketika request berbagi prefix umum—berharga untuk aplikasi dengan prompt terstruktur atau instruksi sistem.
Model distillation menciptakan model lebih kecil yang mendekati perilaku model lebih besar untuk domain spesifik. Model distilled 7B yang menyamai performa GPT-4 pada task tertarget berjalan dengan sebagian kecil biaya infrastruktur sambil mempertahankan kualitas relevan aplikasi.²³ Distillation memerlukan investasi awal dalam training tetapi menghasilkan penghematan inferensi berkelanjutan.
Dikombinasikan, teknik-teknik ini berkompon. Organisasi yang menerapkan kuantisasi (4x), continuous batching (2x), dan speculative decoding (2x) mungkin mencapai pengurangan biaya efektif 16x dibandingkan deployment naif—mentransformasi ekonomi yang tampak marginal menjadi keunggulan substansial.
Framework keputusan API versus self-hosted
Keputusan build-versus-buy tergantung pada faktor di luar perbandingan biaya sederhana.
Pilih inferensi API ketika: - Trafik sporadis atau tidak terprediksi - Volume di bawah 8.000 percakapan per hari - Kapasitas engineering terbatas - Iterasi cepat pada pemilihan model bernilai - Persyaratan kepatuhan dipenuhi oleh sertifikasi penyedia - Persyaratan latensi cocok dengan SLA penyedia
Pilih self-hosted ketika: - Trafik konsisten dan volume tinggi - Utilisasi GPU dapat melebihi 50% secara berkelanjutan - Kedaulatan data mencegah penggunaan API cloud - Model kustom memerlukan serving khusus - Persyaratan latensi melebihi kemampuan penyedia - Optimasi biaya menjustifikasi investasi engineering
Pendekatan hybrid sering terbukti optimal. Organisasi merutekan baseline
[Konten dipotong untuk terjemahan]