Infraestructura de Fine-Tuning: LoRA, QLoRA y PEFT a Escala
El fine-tuning completo de un modelo de 7B requiere 100-120GB de VRAM (~$50K en H100s). QLoRA permite el mismo fine-tuning en una RTX 4090 de $1,500. Los métodos PEFT reducen la memoria 10-20x manteniendo el 90-95% de la calidad. Los adaptadores LoRA no añaden latencia de inferencia al fusionarse con los pesos base. QLoRA combina cuantización de 4 bits con LoRA para máxima eficiencia de memoria.
None