เศรษฐศาสตร์ต่อหน่วยของการประมวลผล Inference: ต้นทุนที่แท้จริงต่อล้านโทเค็น
ต้นทุนการประมวลผล LLM inference ลดลง 10 เท่าต่อปี—เร็วกว่าการประมวลผลของ PC หรือแบนด์วิดท์ในยุค dotcom ประสิทธิภาพเทียบเท่า GPT-4 ตอนนี้มีราคา $0.40/ล้านโทเค็น เทียบกับ $20 ในช่วงปลายปี 2022 ราคาเช่า ...