파인튜닝 인프라: 대규모 LoRA, QLoRA 및 PEFT
70억 파라미터 모델의 전체 파인튜닝에는 100-120GB VRAM(약 5천만 원 상당의 H100)이 필요합니다. QLoRA를 사용하면 150만 원대 RTX 4090에서도 동일한 파인튜닝이 가능합니다. PEFT 방법은 메모리를 10-20배 절감하면서 90-95%의 품질을 유지합니다. LoRA 어댑터는 기본 가중치와 병합되어 추론 지연 시간이 추가되지 않습니다. QLoRA는 4비트 양자화와 LoRA를 결합하여 최대 메모리 효율성을 제공합니다.
None