Économie unitaire de l'inférence : le véritable coût par million de tokens
Les coûts d'inférence LLM ont diminué de 10x par an—plus rapidement que le calcul PC ou la bande passante à l'ère des dotcoms. Les performances équivalentes à GPT-4 coûtent désormais 0,40 $/million de...