Infrastruktur Prompt Caching: Mengurangi Biaya dan Latensi LLM
Prefix caching Anthropic memberikan pengurangan biaya 90% dan pengurangan latensi 85% untuk prompt panjang. Caching otomatis OpenAI diaktifkan secara default (penghematan biaya 50%). 31% query LLM menunjukkan...
None