멀티모달 AI 인프라: 비전-언어 모델 배포 가이드
2025년 12월 11일 업데이트
2025년 12월 업데이트: 오픈소스 VLM(Qwen2.5-VL-72B, InternVL3-78B)이 이제 OpenAI/Google의 독점 모델과 5-10% 차이 내로 근접했습니다. Google Gemini는 처음부터 멀티모달(텍스트, 코드, 오디오, 이미지, 비디오) 시스템으로 구축되었습니다. Meta Llama 4는 모달리티 간 공유 잠재 공간을 위한 초기 융합을 도입했습니다. 멀티모달 워크로드는 텍스트 전용 LLM과 비교하여 더 많은 메모리, 다른 배치 전략, 전문화된 서빙이 필요합니다.
Qwen2.5-VL-72B 및 InternVL3-78B와 같은 오픈소스 비전-언어 모델은 이제 OpenAI와 Google의 독점 모델과 5-10% 차이 내의 성능을 보여줍니다.¹ 이러한 성능 수렴은 멀티모달 AI를 하이퍼스케일러 API에만 제한되던 기능에서 조직이 직접 배포, 파인튜닝, 제어할 수 있는 인프라로 변화시킵니다. 하지만 멀티모달 워크로드는 텍스트 전용 LLM과 근본적으로 다른 인프라를 요구합니다—이미지, 비디오, 텍스트의 동시 처리는 더 많은 메모리, 다른 배치 전략, 전문화된 서빙 구성이 필요합니다.
멀티모달 모델은 AI 발전의 방향을 대표합니다. Google은 Gemini를 처음부터 텍스트, 코드, 오디오, 이미지, 비디오를 통합 아키텍처에서 처리하는 멀티모달 시스템으로 구축했습니다.² Meta의 Llama 4는 모달리티 간 공유 잠재 공간을 생성하는 초기 융합 설계를 도입했습니다.³ 이러한 모델을 서빙하기 위한 인프라 요구사항—메모리 할당, GPU 선택, 아키텍처 패턴, 배포 전략—을 이해하면 조직이 프로덕션 AI를 점점 더 정의하게 될 워크로드에 대비할 수 있습니다.
멀티모달 아키텍처 기초
융합 전략
모델이 시각적 정보와 텍스트 정보를 결합하는 방식이 인프라 요구사항을 결정합니다:⁴
초기 융합: 모델이 처음부터 원시 멀티모달 입력을 함께 처리합니다. 시각 토큰과 텍스트 토큰이 동일한 트랜스포머 아키텍처에 들어가 공유 표현을 생성합니다.
- 예시: Chameleon, Gemini, Llama 4
- 장점: 더 나은 크로스모달 이해, 세밀한 상호작용 포착
- 요구사항: 더 높은 컴퓨팅 리소스, 동기화된 입력
- 인프라 영향: 결합된 토큰 시퀀스를 위한 더 많은 메모리
후기 융합: 모델이 각 모달리티를 독립적으로 처리하고 결정 시점에 결과를 결합합니다. 별도의 인코더가 통합 전에 비전과 언어를 처리합니다.
- 예시: 초기 CLIP 기반 아키텍처
- 장점: 유연성, 내결함성, 더 간단한 추론
- 요구사항: 개별 인코딩 중 메모리 부담 감소
- 인프라 영향: 모달리티별 처리를 병렬화 가능
Apple Research 연구 결과 (2025년 4월): 연구에 따르면 초기 융합과 후기 융합 접근 방식은 처음부터 학습할 때 비슷한 성능을 보이며, 초기 융합이 낮은 컴퓨팅 예산에서 이점을 보이면서 학습 효율성이 더 높았습니다. Mixture of Experts를 사용하는 희소 아키텍처는 자연스럽게 모달리티별 전문화를 발전시켜 추론 비용을 늘리지 않고 성능을 향상시킵니다.
아키텍처 패턴
어댑터 기반 (비전 인코더 + LLM):⁵ 사전 학습된 비전 인코더(SigLIP 또는 ViT 등)가 시각적 특징을 추출하고, 어댑터 레이어가 이를 LLM의 임베딩 공간으로 투영합니다. 그런 다음 LLM이 결합된 시각 및 텍스트 토큰을 처리합니다.
이미지 → 비전 인코더 → 어댑터 → LLM (텍스트 토큰과 함께) → 출력
- 메모리: 비전 인코더 + 어댑터 + LLM 가중치
- 예시: LLaVA, Qwen-VL, InternVL
- 추론: 비전 인코딩은 이미지당 한 번 발생; 텍스트 생성은 표준 LLM 패턴을 따름
네이티브 멀티모달 (통합 아키텍처):⁶ 모델이 처음부터 멀티모달 데이터에 대해 공동 학습되어 단일 아키텍처 내에서 모든 모달리티를 처리합니다.
[이미지 토큰 + 텍스트 토큰] → 통합 트랜스포머 → 출력
- 메모리: 단일 모델 가중치 세트 (일반적으로 더 큼)
- 예시: Gemini, GPT-4V
- 추론: 모든 토큰이 함께 처리됨
Mixture of Experts (MoE) 멀티모달: 희소 전문가 아키텍처가 토큰당 파라미터의 하위 집합을 활성화합니다. DeepSeek-VL2는 총 45억 파라미터 중 10-28억만 입력당 활성화하여 밀집 모델 대비 추론 지연을 50-70% 줄입니다.⁷
메모리 요구사항
모델 크기와 VRAM
멀티모달 모델은 비전 인코더와 이미지 토큰으로 인한 더 긴 컨텍스트 때문에 텍스트 전용 모델보다 더 많은 메모리가 필요합니다:⁸
메모리 계산:
가중치 메모리 = 파라미터 × 파라미터당 바이트
FP16: 파라미터 × 2 바이트
FP8: 파라미터 × 1 바이트
INT4: 파라미터 × 0.5 바이트
예시 (FP16의 72B 모델):
72B × 2 = 가중치만으로 144 GB VRAM
이미지용 KV 캐시: 각 이미지는 KV 캐시에서 수백에서 수천 개의 토큰을 생성합니다. 단일 1024×1024 이미지는 256-1024개의 시각 토큰을 생성할 수 있으며, 각각 시퀀스 길이와 배치 크기에 비례하는 캐시 저장이 필요합니다.
GPU 구성
| 모델 크기 | 정밀도 | 최소 VRAM | 권장 구성 |
|---|---|---|---|
| 7-8B VLM | FP16 | 16 GB | RTX 4090 / L40 |
| 7-8B VLM | INT4 | 8 GB | RTX 3090 / A10 |
| 32B VLM | FP16 | 64 GB | 2× H100 |
| 32B VLM | INT8 | 32 GB | 1× H100 / A100 |
| 72B VLM | FP16 | 144 GB | 2-4× H100 |
| 72B VLM | FP8 | 72 GB | 1-2× H100 |
| 72B VLM | INT4 | 36 GB | 1× H100 |
이미지 해상도 영향: 고해상도 이미지는 더 많은 토큰을 생성합니다. 4K 입력을 지원하는 모델은 512×512 입력보다 4-16배 더 많은 시각 토큰을 생성할 수 있어 메모리 요구사항이 크게 증가합니다.
메모리 최적화
양자화 전략:⁹
AWQ (Activation-aware Weight Quantization): GPTQ보다 더 나은 품질 보존으로 4배 메모리 절감을 제공합니다. GPU에서 종종 2배 더 빠르게 실행됩니다. 프로덕션 VLM 배포에 권장됩니다.
FP8 양자화: H100/H200/B200 하드웨어에서 사용 가능합니다. 최소한의 품질 손실로 2배 메모리 감소를 제공합니다. 단일 8-GPU 노드에서 70B+ VLM 실행이 가능합니다.
Flash Attention: 어텐션 계산의 메모리 복잡도를 O(n²)에서 O(n)으로 줄입니다. 긴 이미지 토큰 시퀀스에 필수적입니다.
KV 캐시 최적화: PagedAttention (vLLM)은 페이징을 통해 KV 캐시를 효율적으로 관리합니다. 가변 길이 이미지 입력으로 누적되는 메모리 단편화를 방지합니다.
서빙 인프라
멀티모달용 vLLM
vLLM은 특정 구성으로 멀티모달 모델을 지원합니다:¹⁰
from vllm import LLM, SamplingParams
# 멀티모달 모델 초기화
llm = LLM(
model="Qwen/Qwen2.5-VL-72B-Instruct",
tensor_parallel_size=4, # 4개 GPU에 분산
gpu_memory_utilization=0.9,
max_model_len=32768,
trust_remote_code=True,
)
# 이미지 + 텍스트 처리
sampling_params = SamplingParams(
temperature=0.7,
max_tokens=2048,
)
outputs = llm.generate(
[
{
"prompt": "Describe this image in detail:",
"multi_modal_data": {"image": image_data}
}
],
sampling_params=sampling_params
)
주요 구성:
- tensor_parallel_size: 대형 VLM을 GPU에 분산
- gpu_memory_utilization: 처리량과 여유 공간 사이의 균형
- max_model_len: 컨텍스트 예산에서 이미지 토큰 고려
TensorRT-LLM 멀티모달
멀티모달 지원이 포함된 NVIDIA의 최적화된 추론:¹¹
지원 모델: - LLaVA 변형 - Qwen-VL - InternVL - 커스텀 비전-언어 아키텍처
최적화 기능: - H100/B200용 FP8 양자화 - GPU 간 텐서 병렬 처리 - 혼합 워크로드를 위한 인플라이트 배칭 - 비전 인코더 최적화
Triton Inference Server
Triton으로 멀티모달 파이프라인 배포:¹²
클라이언트 요청
│
▼
┌─────────────────────┐
│ Triton Ensemble │
├─────────────────────┤
│ ┌───────────────┐ │
│ │ 이미지 인코더 │ │ (비전 전처리)
│ └───────┬───────┘ │
│ │ │
│ ┌───────▼───────┐ │
│ │ VLM 백엔드 │ │ (메인 모델 추론)
│ └───────┬───────┘ │
│ │ │
│ ┌───────▼───────┐ │
│ │ 후처리기 │ │ (응답 포맷팅)
│ └───────────────┘ │
└─────────────────────┘
장점: - 복잡한 워크플로우를 위한 파이프라인 오케스트레이션 - 모델 버전 관리 - 메트릭 및 모니터링 - 멀티 프레임워크 지원
배치 전략
멀티모달 배치는 텍스트 전용 LLM과 다릅니다:¹³
이미지 전처리 배치: 이미지 인코딩을 텍스트 생성과 별도로 배치합니다. 비전 인코더가 LLM 추론 전에 이미지를 병렬로 처리합니다.
가변 이미지를 사용한 동적 배치: 이미지 수가 다른 요청은 배치 복잡성을 만듭니다. 배치당 최대 이미지 수로 패딩하면 컴퓨팅이 낭비됩니다.
연속 배치: vLLM의 PagedAttention은 멀티모달 모델에 대한 연속 배치를 가능하게 하지만, 이미지 토큰 처리에는 신중한 메모리 관리가 필요합니다.
권장사항: 프로덕션 파이프라인에서 이미지 인코딩을 텍스트 생성과 분리하세요. 이미지를 배치로 처리한 다음 시각적 임베딩을 텍스트와 함께 LLM에 공급합니다.
주요 멀티모달 모델
독점 옵션
GPT-4V/GPT-4o (OpenAI):¹⁴ - 컨텍스트: 최대 128K 토큰 - 기능: 이미지 이해, 문서 분석, 시각적 추론 - 인프라: API 전용 (자체 호스팅 불가) - 가격: 이미지 토큰 비용 포함 토큰당 과금
Gemini Pro/Ultra (Google): - 컨텍스트: 최대 1M 토큰 - 기능: 네이티브 멀티모달 (텍스트, 이미지, 오디오, 비디오) - 인프라: Vertex AI 또는 API - 최적화: TPU v4/v5 최적화
Claude 3.5 (Anthropic): - 컨텍스트: 200K 토큰 - 기능: 이미지 이해, 문서 분석 - 인프라: API 또는 Amazon Bedrock - 강점: 문서 및 차트 이해
오픈소스 옵션
Qwen2.5-VL (Alibaba):¹⁵ - 크기: 3B, 7B, 72B - 컨텍스트: 표준 32K 토큰 - 기능: 비전-언어 추론, 에이전트 작업 - 인프라: 자체 호스팅 가능, vLLM 지원 - 적합 용도: 에이전트 워크플로우, 프로덕션 배포
InternVL3 (OpenGVLab): - 크기: 최대 78B 파라미터 - 기능: GPT-4V에 근접한 성능 - 인프라: 완전 오픈 가중치 - 적합 용도: 고품질 자체 호스팅 비전
Llama 3.2 Vision (Meta): - 크기: 11B, 90B - 기능: 이미지 이해 - 인프라: 광범위한 에코시스템 지원 - 적합 용도: 이미 Llama를 사용하는 조직
DeepSeek-VL2: - 아키텍처: 10-28억 활성 파라미터의 MoE - 효율성: 밀집 모델 대비 50-70% 지연 감소 - 적합 용도: 비용에 민감한 배포
모델 선택 기준
| 요소 | 독점 API | 자체 호스팅 오픈소스 |
|---|---|---|
| 설정 복잡성 | 낮음 | 높음 |
| 추론 비용 | 토큰당 | 인프라 |
| 데이터 프라이버시 | 데이터 외부 전송 | 완전 제어 |
| 커스터마이징 | 제한적 | 파인튜닝 가능 |
| 지연 시간 | 네트워크 의존 | 제어 가능 |
| 확장 유연성 | 즉시 | 용량 계획 필요 |
프로덕션 배포 패턴
클라우드 배포
단일 GPU 추론 (소형 모델):
# 7B VLM용 Kubernetes pod
resources:
limits:
nvidia.com/gpu: 1
memory: "32Gi"
requests:
nvidia.com/gpu: 1
memory: "24Gi"
다중 GPU 추론 (대형 모델):
# 72B VLM용 Kubernetes deployment
resources:
limits:
nvidia.com/gpu: 4 # 72B FP8용 4× H100
memory: "512Gi"
오토스케일링 고려사항: - VLM 콜드 스타트는 더 느림 (비전 인코더 + LLM 로딩) - 지연에 민감한 워크로드를 위해 웜 인스턴스 유지 - GPU 사용률과 큐 깊이를 기반으로 확장
엣지 배포
엣지 VLM 배포는 온디바이스 비전 인텔리전스를 가능하게 합니다:¹⁶
RamaLama 배포: 컨테이너 네이티브 철학이 엣지 배포를 단순화합니다:
# 엣지 디바이스에 VLM 배포
ramalama run qwen2.5-vl-3b
# Kubernetes용 배포 아티팩트 생성
ramalama generate --kubernetes qwen2.5-vl-3b
엣지 최적화 모델: - 모바일/엣지용 Mistral의 경량 VLM - MiniCPM-V는 휴대폰에서 실행하면서 GPT-4V를 능가 - 효율적인 엣지 추론을 위한 DeepSeek-VL2 MoE
사용 사례: - 스마트 안경 및 AR 헤드셋 - 차량용 어시스턴트 - 산업 검사 시스템 - 소매 자동화
[번역을 위해 내용 축약됨]