모델 서빙 최적화: 추론을 위한 양자화, 프루닝, 증류

FP8 추론이 H100/H200에서 프로덕션 표준으로 자리잡았으며, INT4(AWQ, GPTQ, GGUF)를 통해 소비자용 GPU에서 700억 파라미터 모델 실행이 가능해졌습니다. 추측적 디코딩으로 자기회귀 생성에서 2-3배 처리량 향상 달성...

Blake Crosley

Jan 30, 2026 7 min read Disclaimer

모델 서빙 최적화: 추론을 위한 양자화, 프루닝, 증류

2025년 12월 8일 업데이트

2025년 12월 업데이트: FP8 추론이 H100/H200에서 프로덕션 표준으로 자리잡았으며, INT4(AWQ, GPTQ, GGUF)를 통해 소비자용 GPU에서 700억 파라미터 모델 실행이 가능해졌습니다. 추측적 디코딩(speculative decoding)으로 자기회귀 생성에서 2-3배 처리량 향상을 달성하고 있습니다. vLLM과 TensorRT-LLM은 연속 배칭(continuous batching)을 통해 5배의 추론 효율성을 실현합니다. Llama.cpp 생태계는 소규모 모델의 CPU 추론을 가능하게 합니다. Mixture-of-Experts 모델(Mixtral, DBRX)이 증류 경제학을 변화시키고 있으며, 8x7B 모델이 700억 파라미터급 품질에 근접하면서도 연산량은 훨씬 적습니다.

단일 GPT-3 추론 요청은 전체 정밀도에서 $0.06의 비용이 들지만, 최적화 후에는 $0.015로 감소합니다. 이는 대규모 환경에서 AI 경제학을 변화시키는 75% 절감입니다. 양자화, 프루닝, 증류를 포함한 모델 서빙 최적화 기법은 허용 가능한 정확도를 유지하면서 인프라 요구사항을 최대 90%까지 줄입니다. 이러한 기법들은 AI 애플리케이션이 수익성을 달성하느냐, 아니면 지속 불가능한 컴퓨팅 비용으로 자원을 소모하느냐를 결정합니다. 이 가이드에서는 프로덕션 팀이 매일 수십억 건의 추론 요청을 경제적으로 처리하기 위해 배포하는 실용적인 구현 전략을 살펴봅니다.

양자화 기본 원리와 구현

양자화는 수치 정밀도를 32비트 부동소수점에서 8비트 정수로 줄여 모델 크기를 75% 축소하고 추론 속도를 2-4배 향상시킵니다. 이 과정은 연속적인 부동소수점 값을 이산적인 정수 표현으로 매핑하며, 최소한의 정확도 손실을 감수하고 상당한 성능 향상을 얻습니다. 최신 프레임워크는 양자화 워크플로우를 자동화하지만, 기본 메커니즘을 이해하면 특정 사용 사례에 맞는 최적의 구성이 가능합니다.

학습 후 양자화(PTQ, Post-training Quantization)는 재학습 없이 학습된 모델을 변환하며, 며칠이 아닌 몇 분 만에 완료됩니다. 이 과정은 대표적인 캘리브레이션 데이터를 사용하여 활성화 통계를 수집하고, 가중치와 활성화 양자화를 위한 최적의 스케일링 팩터를 결정합니다. NVIDIA의 TensorRT는 ResNet-50에서 1% 미만의 정확도 저하로 INT8 양자화를 달성하면서 지연 시간을 71% 줄입니다. Google의 Edge TPU는 INT8 양자화를 필요로 하므로 PTQ는 엣지 배포 시나리오에 필수적입니다.

양자화 인식 학습(QAT, Quantization-aware Training)은 학습 중에 양자화를 시뮬레이션하여 네트워크가 감소된 정밀도에 적응할 수 있게 합니다. 순전파 과정에서 삽입된 가짜 양자화 노드는 역전파를 위한 부동소수점 그래디언트를 유지하면서 양자화 효과를 모델링합니다. 이 접근 방식은 PTQ 중 손실된 정확도를 복구하여 정수 추론으로 부동소수점에 가까운 성능을 달성합니다. Meta의 추천 모델용 QAT 구현은 프로덕션 추론 서버에서 3.5배 처리량 향상을 가능하게 하면서 FP32 정확도의 99.5%를 유지합니다.

동적 양자화는 가중치는 정적으로 양자화하고 활성화 스케일은 배치별로 동적으로 계산하여 성능과 정확도의 균형을 맞춥니다. PyTorch의 동적 양자화는 BERT 모델 크기를 75% 줄이고 속도를 2배 향상시키며 정확도 손실은 무시할 수준입니다. 이 기법은 정적 캘리브레이션이 불충분한, 입력 분포가 다양한 모델에 탁월합니다. Hugging Face의 Optimum 라이브러리는 트랜스포머 모델용 동적 양자화를 구현하여 질의응답 작업에서 40% 지연 시간 감소를 달성합니다.

혼합 정밀도 전략은 민감도 분석을 기반으로 레이어별로 다른 양자화 수준을 적용합니다. 중요한 레이어는 FP16 정밀도를 유지하고 내성이 있는 레이어는 INT8 또는 INT4를 사용합니다. Apple의 Neural Engine은 4비트 가중치와 8비트 활성화로 채널별 양자화를 구현하여 온디바이스 모델에서 85% 크기 감소를 달성합니다. 민감도 분석 도구는 공격적인 양자화가 정확도 저하를 야기하는 레이어를 식별하여 최적의 성능-정확도 트레이드오프를 위한 정밀도 할당을 안내합니다.

모델 압축을 위한 프루닝 전략

구조적 프루닝은 전체 채널, 필터 또는 어텐션 헤드를 제거하여 표준 하드웨어와 호환되는 조밀한 소형 모델을 생성합니다. 이 접근 방식은 크기, 그래디언트 또는 2차 기준을 통해 가장 덜 중요한 구조를 식별하고, 모델 연결성을 유지하면서 제거합니다. NVIDIA의 ASP(Automatic Sparsity)는 4개의 가중치 중 2개가 0인 2:4 구조적 희소성을 달성하여 특수 커널 없이 A100 GPU에서 2배 처리량을 가능하게 합니다.

크기 기반 프루닝은 임계값 이하의 가중치를 제거하여 특수 실행 엔진이 필요한 희소 행렬을 생성합니다. 반복적 프루닝은 학습 중에 점진적으로 희소성을 증가시켜 네트워크가 연결 제거에 적응할 수 있게 합니다. Google의 연구는 BERT에서 최소한의 정확도 손실로 90% 희소성을 보여주며, 모델 크기를 420MB에서 42MB로 줄입니다. 그러나 희소 행렬 곱셈은 cuSPARSE와 같은 특수 라이브러리가 필요하여 배포 유연성이 제한됩니다.

복권 가설(Lottery Ticket Hypothesis)은 무작위 초기화에서 전체 정확도로 학습할 수 있는 희소 서브네트워크를 식별하여 프루닝을 안내합니다. 이러한 "당첨 티켓"은 원래 크기의 10-20%로 원본 모델 성능을 유지합니다. MIT의 연구는 당첨 티켓이 데이터셋 간에 전이됨을 밝혀 특정 도메인을 위한 사전 프루닝된 아키텍처를 가능하게 합니다. 이 접근 방식은 여러 번의 학습 반복이 필요하지만 학습 후 프루닝에 비해 우수한 희소 네트워크를 생성합니다.

채널 프루닝은 합성곱 신경망을 대상으로 중요도 점수를 기반으로 전체 필터를 제거합니다. 테일러 전개는 채널 제거의 정확도 영향을 근사하여 프루닝 결정을 안내합니다. 30% 프루닝된 MobileNetV3는 모바일 기기에서 지연 시간을 25% 줄이면서 ImageNet 정확도를 유지합니다. Neural Network Intelligence(NNI)와 같은 자동화된 프루닝 도구는 아키텍처 탐색과 함께 채널 프루닝을 구현하여 수동 개입 없이 최적의 구성을 찾습니다.

어텐션 헤드 프루닝은 트랜스포머 아키텍처를 특별히 대상으로 하여 중복 셀프 어텐션 헤드를 제거합니다. 분석 결과 많은 헤드가 유사한 패턴을 학습하여 기능 손실 없이 제거가 가능함이 밝혀졌습니다. Microsoft의 DynaBeRT는 BERT-base에서 어텐션 헤드의 75%를 프루닝하면서 원래 정확도의 97%를 유지합니다. 이 기법은 레이어 드롭과 결합하여 입력 난이도에 따라 복잡도를 조정하는 적응형 모델을 생성합니다.

지식 증류 기법

지식 증류는 대형 교사 모델에서 컴팩트한 학생 모델로 지식을 전달하여 10-100배 크기 감소를 달성합니다. 학생은 단순히 정답 레이블을 맞추는 것이 아니라 교사 행동을 모방하는 것을 학습하여 미묘한 결정 경계를 포착합니다. OpenAI의 GPT-3 증류를 통한 소형 모델은 ChatGPT의 무료 티어를 구동하며, 대화 품질을 유지하면서 서빙 비용을 85% 절감합니다.

증류에서의 온도 스케일링은 확률 분포를 부드럽게 하여 교사 예측의 암묵적 지식을 드러냅니다. 높은 온도는 원-핫 레이블이 숨기는 클래스 간 관계를 노출합니다. Google의 DistilBERT는 40% 적은 파라미터와 60% 빠른 추론으로 BERT 성능의 97%를 달성합니다. 학생 아키텍처는 일반적으로 축소된 규모로 교사 구조를 따르지만, 이종 증류는 교차 아키텍처 지식 전달을 가능하게 합니다.

특징 증류는 최종 예측을 넘어 중간 표현을 매칭하여 학습된 특징을 직접 전달합니다. 학생은 여러 레이어에서 교사 활성화를 재현하는 것을 학습하여 계층적 지식을 포착합니다. Facebook의 DeiT(Data-efficient Image Transformers)는 CNN에서 비전 트랜스포머를 증류하여 5배 적은 학습 반복으로 ImageNet 정확도를 달성합니다. 다층 증류는 최종 출력만으로는 불충분한 학습 신호를 제공하는 깊은 네트워크에 특히 효과적입니다.

온라인 증류는 학생과 교사를 동시에 학습시켜 별도의 교사 학습 단계를 제거합니다. 여러 학생 간의 협력 학습은 명시적인 대형 모델 없이 암묵적 앙상블 교사를 생성합니다. Baidu의 음성 인식용 온라인 증류는 학생 정확도를 2% 향상시키면서 학습 시간을 40% 단축합니다. 이 접근 방식은 교사 모델이 존재하지 않거나 연속 학습 요구사항으로 인해 정적 교사가 불가능한 시나리오에 적합합니다.

점진적 증류는 중간 모델을 통해 점진적으로 지식을 전달하여 큰 교사-학생 격차를 연결합니다. 순차적 증류 체인은 1,750억 파라미터 교사에서 10억 파라미터 학생까지의 디딤돌을 생성합니다. Anthropic의 헌법적 AI 학습은 모델 크기를 50배 줄이면서 정렬 속성을 유지하기 위해 점진적 증류를 사용합니다. 각 증류 단계는 특정 능력에 집중하여 중요한 행동을 보존하면서 다른 것은 단순화합니다.

하드웨어 특화 최적화

NVIDIA GPU를 위한 TensorRT 최적화는 레이어 퓨전, 커널 자동 튜닝, 정밀도 캘리브레이션을 결합합니다. 컴파일러는 순차적 연산을 단일 커널로 병합하여 메모리 트래픽과 커널 시작 오버헤드를 줄입니다. Convolution-ReLU-pooling 시퀀스는 단일 연산으로 퓨전되어 처리량을 30% 향상시킵니다. 프로파일 가이드 최적화는 특정 입력 형태에 대한 최적 커널을 선택하여 T4 GPU에서 BERT 추론의 5배 속도 향상을 달성합니다.

Intel OpenVINO는 GPU 없이 추론을 위해 벡터화와 캐시 최적화로 x86 CPU를 대상으로 합니다. 이 툴킷은 Ice Lake 프로세서의 VNNI 명령어로 INT8 양자화를 구현하여 4배 처리량 향상을 달성합니다. 그래프 최적화는 중복 연산을 제거하고 상수를 접어 연산을 20% 줄입니다. Amazon은 소형 모델에 대해 GPU 서빙보다 90% 저렴한 추론당 $0.002를 달성하며 CPU 추론을 위해 OpenVINO를 배포합니다.

Apple Core ML은 iOS 기기 전반에서 Neural Engine과 Metal Performance Shaders를 최적화합니다. 이 프레임워크는 Apple Silicon에 최적화된 16비트 부동소수점 및 8비트 정수 경로를 구현합니다. 온디바이스 컴파일은 특정 하드웨어 기능에 맞게 모델을 적응시켜 최적의 정밀도와 실행 전략을 선택합니다. iPhone 15 Pro는 Core ML 최적화를 통해 실시간 Stable Diffusion 추론을 가능하게 하는 35 TOPS를 달성합니다.

Edge TPU 컴파일은 특정 아키텍처 제약과 양자화 접근 방식을 필요로 합니다. 모델은 INT8 양자화와 지원되는 연산을 갖춘 TensorFlow Lite를 사용해야 합니다. 컴파일러는 연산 호환성에 따라 Edge TPU와 CPU 간에 모델을 파티셔닝합니다. Google의 Edge TPU는 2W 전력 소비에서 4 TOPS를 달성하여 임베디드 기기에서 실시간 비디오 분석을 가능하게 합니다. Coral Dev Board는 총 시스템 전력 2.5W만 소비하면서 400 FPS로 MobileNet을 실행합니다.

AMD ROCm 최적화는 MI 시리즈 가속기를 위해 MIOpen 라이브러리와 그래프 퓨전을 활용합니다. 이 프레임워크는 트랜스포머 모델의 메모리 대역폭 요구사항을 50% 줄이는 FlashAttention 커널을 구현합니다. 구성 가능한 커널 라이브러리는 AMD 아키텍처에 특화된 커스텀 퓨전 패턴을 가능하게 합니다. Stability AI의 MI250X 배포는 ROCm 최적화를 통해 60% 비용으로 NVIDIA A100 성능의 80%를 달성합니다.

최적화 파이프라인 통합

엔드투엔드 최적화 파이프라인은 최대 압축과 가속을 위해 여러 기법을 결합합니다. Microsoft의 DeepSpeed Compression 프레임워크는 통합 워크플로우에서 프루닝, 양자화, 증류를 오케스트레이션합니다. 이 시스템은 GPT 모델에서 10배 모델 압축과 3배 지연 시간 감소를 달성합니다. 자동화된 하이퍼파라미터 탐색은 여러 목표의 균형을 맞추는 최적의 압축 구성을 식별합니다.

A/B 테스팅 프레임워크는 정확도를 넘어 비즈니스 지표에 대한 최적화 영향을 평가합니다. Netflix는 최적화된 추천 모델을 배포할 때 참여 지표를 추적하여 압축이 사용자 만족도를 감소시키지 않도록 합니다. 점진적 롤아웃 전략은 전체 배포 전에 소규모 사용자 세그먼트에서 최적화된 모델을 테스트합니다. 지표 대시보드는 지연 시간, 비용, 품질 차원에서 최적화된 모델과 기준 모델을 비교합니다. Uber의 Michelangelo 플랫폼은 비즈니스 KPI가 임계값을 초과하여 저하되면 최적화를 자동으로 롤백합니다.

지속적 최적화는 변화하는 요구사항과 하드웨어 기능에 모델을 적응시킵니다. 자동화된 재학습 파이프라인은 새로운 최적화 기법이 등장하면 이를 통합합니다. Facebook의 ONNX Runtime은 새로운 최적화를 자동으로 적용합니다.