Hạ tầng Fine-Tuning: LoRA, QLoRA và PEFT ở Quy mô Lớn
Fine-tuning toàn bộ model 7B cần 100-120GB VRAM (~$50K H100). QLoRA cho phép fine-tuning tương tự trên RTX 4090 giá $1,500. Các phương pháp PEFT giảm bộ nhớ 10-20x trong khi vẫn giữ được 90-95% chất lượng. LoRA adapter không thêm độ trễ inference nhờ merge với trọng số gốc. QLoRA kết hợp lượng tử hóa 4-bit với LoRA để đạt hiệu quả bộ nhớ tối đa.
None