Infrastruktur AI Multi-modal: Panduan Deployment Vision-Language Model

VLM open-source (Qwen2.5-VL-72B, InternVL3-78B) kini hanya terpaut 5-10% dari model proprietary OpenAI/Google. Google Gemini dibangun dari awal sebagai multimodal (teks, kode, audio, gambar, video). Meta Llama...

Blake Crosley

Mar 22, 2026 8 min read Disclaimer

Infrastruktur AI Multi-modal: Panduan Deployment Vision-Language Model

Diperbarui 11 Desember 2025

Update Desember 2025: VLM open-source (Qwen2.5-VL-72B, InternVL3-78B) kini hanya terpaut 5-10% dari model proprietary OpenAI/Google. Google Gemini dibangun dari awal sebagai multimodal (teks, kode, audio, gambar, video). Meta Llama 4 memperkenalkan early fusion untuk shared latent spaces lintas modalitas. Workload multimodal membutuhkan lebih banyak memori, batching berbeda, dan serving khusus dibanding LLM text-only.

Model vision-language open-source seperti Qwen2.5-VL-72B dan InternVL3-78B kini performanya hanya terpaut 5-10% dari model proprietary OpenAI dan Google.¹ Konvergensi performa ini mentransformasi AI multimodal dari kapabilitas yang hanya tersedia melalui API hyperscaler menjadi infrastruktur yang dapat di-deploy, di-fine-tune, dan dikontrol sendiri oleh organisasi. Namun workload multimodal menuntut infrastruktur yang secara fundamental berbeda dari LLM text-only—pemrosesan simultan gambar, video, dan teks membutuhkan lebih banyak memori, strategi batching berbeda, dan konfigurasi serving khusus.

Model multimodal merepresentasikan arah perkembangan AI. Google membangun Gemini dari awal sebagai sistem multimodal, memproses teks, kode, audio, gambar, dan video dalam arsitektur terpadu.² Meta Llama 4 memperkenalkan desain early fusion yang menciptakan shared latent spaces lintas modalitas.³ Memahami kebutuhan infrastruktur untuk serving model-model ini—alokasi memori, pemilihan GPU, pola arsitektur, dan strategi deployment—membantu organisasi mempersiapkan diri untuk workload yang akan semakin mendefinisikan AI produksi.

Fundamental arsitektur multimodal

Strategi fusion

Cara model menggabungkan informasi visual dan tekstual menentukan kebutuhan infrastruktur:⁴

Early fusion: Model memproses input multimodal mentah secara bersamaan dari awal. Token visual dan token teks memasuki arsitektur transformer yang sama, menciptakan representasi bersama.

Contoh: Chameleon, Gemini, Llama 4
Keunggulan: Pemahaman cross-modal lebih baik, menangkap interaksi detail
Kebutuhan: Sumber daya komputasi lebih tinggi, input tersinkronisasi
Dampak infrastruktur: Memori lebih besar untuk sequence token gabungan

Late fusion: Model memproses setiap modalitas secara independen, menggabungkan hasil pada saat pengambilan keputusan. Encoder terpisah menangani vision dan language sebelum integrasi.

Contoh: Arsitektur berbasis CLIP generasi awal
Keunggulan: Fleksibilitas, fault tolerance, inferensi lebih sederhana
Kebutuhan: Tekanan memori lebih rendah saat encoding individual
Dampak infrastruktur: Dapat memparalelkan pemrosesan spesifik modalitas

Temuan Apple Research (April 2025): Riset menunjukkan bahwa pendekatan early-fusion dan late-fusion berkinerja setara ketika dilatih dari awal, dengan early-fusion menunjukkan keunggulan pada budget komputasi lebih rendah sekaligus lebih efisien untuk dilatih. Arsitektur sparse menggunakan Mixture of Experts secara natural mengembangkan spesialisasi modalitas, meningkatkan performa tanpa menambah biaya inferensi.

Pola arsitektur

Berbasis adapter (vision encoder + LLM):⁵ Vision encoder yang sudah pretrained (seperti SigLIP atau ViT) mengekstrak fitur visual, yang kemudian diproyeksikan oleh layer adapter ke embedding space LLM. LLM kemudian memproses token visual dan teks gabungan.

Gambar → Vision Encoder → Adapter → LLM (dengan token teks) → Output

Memori: Weight vision encoder + adapter + LLM
Contoh: LLaVA, Qwen-VL, InternVL
Inferensi: Encoding vision terjadi sekali per gambar; generasi teks mengikuti pola LLM standar

Native multimodal (arsitektur terpadu):⁶ Model menangani semua modalitas dalam satu arsitektur tunggal, dilatih bersama pada data multimodal dari awal.

[Token Gambar + Token Teks] → Unified Transformer → Output

Memori: Satu set weight model (biasanya lebih besar)
Contoh: Gemini, GPT-4V
Inferensi: Semua token diproses bersamaan

Mixture of Experts (MoE) multimodal: Arsitektur sparse expert mengaktifkan subset parameter per token. DeepSeek-VL2 hanya mengaktifkan 1-2,8 miliar dari total 4,5 miliar parameter per input, memotong latensi inferensi 50-70% dibanding model dense.⁷

Kebutuhan memori

Ukuran model dan VRAM

Model multimodal membutuhkan lebih banyak memori daripada model text-only karena vision encoder dan konteks lebih panjang dari token gambar:⁸

Perhitungan memori:

Memori Weight = Parameter × Byte per Parameter

FP16: Parameter × 2 byte
FP8:  Parameter × 1 byte
INT4: Parameter × 0,5 byte

Contoh (model 72B dalam FP16):
72B × 2 = 144 GB VRAM hanya untuk weight

KV cache untuk gambar: Setiap gambar menghasilkan ratusan hingga ribuan token di KV cache. Satu gambar 1024×1024 mungkin menghasilkan 256-1024 token visual, masing-masing membutuhkan penyimpanan cache proporsional dengan panjang sequence dan batch size.

Konfigurasi GPU

Ukuran Model	Presisi	Min VRAM	Konfigurasi Rekomendasi
7-8B VLM	FP16	16 GB	RTX 4090 / L40
7-8B VLM	INT4	8 GB	RTX 3090 / A10
32B VLM	FP16	64 GB	2× H100
32B VLM	INT8	32 GB	1× H100 / A100
72B VLM	FP16	144 GB	2-4× H100
72B VLM	FP8	72 GB	1-2× H100
72B VLM	INT4	36 GB	1× H100

Dampak resolusi gambar: Gambar resolusi lebih tinggi menghasilkan lebih banyak token. Model yang mendukung input 4K mungkin menghasilkan 4-16x lebih banyak token visual dibanding input 512×512, secara dramatis meningkatkan kebutuhan memori.

Optimisasi memori

Strategi kuantisasi:⁹

AWQ (Activation-aware Weight Quantization): Memberikan penghematan memori 4x dengan preservasi kualitas lebih baik dari GPTQ. Sering berjalan 2x lebih cepat di GPU. Direkomendasikan untuk deployment VLM produksi.

Kuantisasi FP8: Tersedia di hardware H100/H200/B200. Memberikan reduksi memori 2x dengan kehilangan kualitas minimal. Memungkinkan menjalankan VLM 70B+ di node single 8-GPU.

Flash Attention: Mengurangi kompleksitas memori untuk komputasi attention dari O(n²) ke O(n). Kritikal untuk sequence token gambar yang panjang.

Optimisasi KV cache: PagedAttention (vLLM) mengelola KV cache secara efisien melalui paging. Mencegah fragmentasi memori yang terakumulasi dengan input gambar panjang variabel.

Infrastruktur serving

vLLM untuk multimodal

vLLM mendukung model multimodal dengan konfigurasi spesifik:¹⁰

from vllm import LLM, SamplingParams

# Inisialisasi model multimodal
llm = LLM(
    model="Qwen/Qwen2.5-VL-72B-Instruct",
    tensor_parallel_size=4,  # Distribusi ke 4 GPU
    gpu_memory_utilization=0.9,
    max_model_len=32768,
    trust_remote_code=True,
)

# Proses gambar + teks
sampling_params = SamplingParams(
    temperature=0.7,
    max_tokens=2048,
)

outputs = llm.generate(
    [
        {
            "prompt": "Describe this image in detail:",
            "multi_modal_data": {"image": image_data}
        }
    ],
    sampling_params=sampling_params
)

Konfigurasi kunci: - tensor_parallel_size: Distribusi model ke seluruh GPU untuk VLM besar - gpu_memory_utilization: Keseimbangan antara throughput dan headroom - max_model_len: Memperhitungkan token gambar dalam budget konteks

TensorRT-LLM multimodal

Inferensi teroptimisasi dari NVIDIA dengan dukungan multimodal:¹¹

Model yang didukung: - Varian LLaVA - Qwen-VL - InternVL - Arsitektur vision-language kustom

Fitur optimisasi: - Kuantisasi FP8 untuk H100/B200 - Tensor parallelism lintas GPU - Inflight batching untuk workload campuran - Optimisasi vision encoder

Triton Inference Server

Deploy pipeline multimodal dengan Triton:¹²

Client Request
     │
     ▼
┌─────────────────────┐
│  Triton Ensemble    │
├─────────────────────┤
│  ┌───────────────┐  │
│  │ Image Encoder │  │ (Preprocessing visual)
│  └───────┬───────┘  │
│          │          │
│  ┌───────▼───────┐  │
│  │  VLM Backend  │  │ (Inferensi model utama)
│  └───────┬───────┘  │
│          │          │
│  ┌───────▼───────┐  │
│  │ Postprocessor │  │ (Formatting respons)
│  └───────────────┘  │
└─────────────────────┘

Manfaat: - Orkestrasi pipeline untuk workflow kompleks - Manajemen versi model - Metrik dan monitoring - Dukungan multi-framework

Strategi batching

Batching multimodal berbeda dari LLM text-only:¹³

Batching preprocessing gambar: Batch encoding gambar terpisah dari generasi teks. Vision encoder memproses gambar secara paralel sebelum inferensi LLM.

Dynamic batching dengan gambar variabel: Request dengan jumlah gambar berbeda menciptakan kompleksitas batching. Padding ke maksimum gambar per batch membuang komputasi.

Continuous batching: PagedAttention vLLM memungkinkan continuous batching untuk model multimodal, meskipun penanganan token gambar membutuhkan manajemen memori hati-hati.

Rekomendasi: Pisahkan encoding gambar dari generasi teks dalam pipeline produksi. Proses gambar dalam batch, lalu feed embedding visual ke LLM bersamaan dengan teks.

Model multimodal terdepan

Opsi proprietary

GPT-4V/GPT-4o (OpenAI):¹⁴ - Konteks: Hingga 128K token - Kapabilitas: Pemahaman gambar, analisis dokumen, penalaran visual - Infrastruktur: API-only (tidak bisa self-hosting) - Harga: Per-token dengan biaya token gambar

Gemini Pro/Ultra (Google): - Konteks: Hingga 1M token - Kapabilitas: Native multimodal (teks, gambar, audio, video) - Infrastruktur: Vertex AI atau API - Optimisasi: Dioptimalkan untuk TPU v4/v5

Claude 3.5 (Anthropic): - Konteks: 200K token - Kapabilitas: Pemahaman gambar, analisis dokumen - Infrastruktur: API atau Amazon Bedrock - Keunggulan: Pemahaman dokumen dan chart

Opsi open-source

Qwen2.5-VL (Alibaba):¹⁵ - Ukuran: 3B, 7B, 72B - Konteks: 32K token standar - Kapabilitas: Vision-language reasoning, tugas agentic - Infrastruktur: Self-hostable, dukungan vLLM - Terbaik untuk: Workflow agentic, deployment produksi

InternVL3 (OpenGVLab): - Ukuran: Hingga 78B parameter - Kapabilitas: Performa mendekati GPT-4V - Infrastruktur: Weight open penuh - Terbaik untuk: Vision self-hosted berkualitas tinggi

Llama 3.2 Vision (Meta): - Ukuran: 11B, 90B - Kapabilitas: Pemahaman gambar - Infrastruktur: Dukungan ekosistem luas - Terbaik untuk: Organisasi yang sudah menggunakan Llama

DeepSeek-VL2: - Arsitektur: MoE dengan 1-2,8B parameter aktif - Efisiensi: Reduksi latensi 50-70% vs model dense - Terbaik untuk: Deployment sensitif biaya

Kriteria pemilihan model

Faktor	API Proprietary	Self-Hosted Open
Kompleksitas setup	Rendah	Tinggi
Biaya inferensi	Per-token	Infrastruktur
Privasi data	Data dikirim eksternal	Kontrol penuh
Kustomisasi	Terbatas	Fine-tuning tersedia
Latensi	Bergantung jaringan	Terkontrol
Fleksibilitas skala	Instan	Perlu capacity planning

Pola deployment produksi

Deployment cloud

Inferensi single-GPU (model kecil):

# Kubernetes pod untuk VLM 7B
resources:
  limits:
    nvidia.com/gpu: 1
    memory: "32Gi"
  requests:
    nvidia.com/gpu: 1
    memory: "24Gi"

Inferensi multi-GPU (model besar):

# Kubernetes deployment untuk VLM 72B
resources:
  limits:
    nvidia.com/gpu: 4  # 4× H100 untuk 72B FP8
    memory: "512Gi"

Pertimbangan autoscaling: - Cold start VLM lebih lambat (loading vision encoder + LLM) - Pertahankan instance warm untuk workload sensitif latensi - Scale berdasarkan utilisasi GPU dan kedalaman queue

Deployment edge

Deployment VLM edge memungkinkan kecerdasan visual on-device:¹⁶

Deployment RamaLama: Filosofi container-native menyederhanakan deployment edge:

# Deploy VLM ke edge device
ramalama run qwen2.5-vl-3b

# Generate artifact deployment untuk Kubernetes
ramalama generate --kubernetes qwen2.5-vl-3b

Model teroptimisasi edge: - VLM lightweight Mistral untuk mobile/edge - MiniCPM-V mengalahkan GPT-4V sambil berjalan di ponsel - DeepSeek-VL2 MoE untuk inferensi edge efisien

Use case: - Smart glasses dan AR headset - Asisten dalam kendaraan - Sistem inspeksi industrial - Otomasi retail

[Konten dipotong untuk terjemahan]