Multi-modale KI-Infrastruktur: Leitfaden zur Bereitstellung von Vision-Language-Modellen
Aktualisiert am 11. Dezember 2025
Update Dezember 2025: Open-Source-VLMs (Qwen2.5-VL-72B, InternVL3-78B) liegen jetzt nur noch 5-10% hinter proprietären OpenAI/Google-Modellen. Google Gemini wurde von Grund auf als multimodal konzipiert (Text, Code, Audio, Bilder, Video). Meta Llama 4 führt Early Fusion für gemeinsame latente Räume über Modalitäten hinweg ein. Multimodale Workloads erfordern mehr Speicher, andere Batching-Strategien und spezialisiertes Serving im Vergleich zu reinen Text-LLMs.
Open-Source Vision-Language-Modelle wie Qwen2.5-VL-72B und InternVL3-78B erreichen mittlerweile Leistungen, die nur noch 5-10% hinter proprietären Modellen von OpenAI und Google liegen.¹ Diese Leistungsannäherung verwandelt multimodale KI von einer Fähigkeit, die Hyperscaler-APIs vorbehalten war, in eine Infrastruktur, die Organisationen selbst bereitstellen, feinabstimmen und kontrollieren können. Aber multimodale Workloads stellen grundlegend andere Anforderungen an die Infrastruktur als reine Text-LLMs – die gleichzeitige Verarbeitung von Bildern, Video und Text erfordert mehr Speicher, andere Batching-Strategien und spezialisierte Serving-Konfigurationen.
Multimodale Modelle repräsentieren die Entwicklungsrichtung der KI. Google hat Gemini von Grund auf als multimodales System konzipiert, das Text, Code, Audio, Bilder und Video in einer einheitlichen Architektur verarbeitet.² Metas Llama 4 führte Early-Fusion-Designs ein, die gemeinsame latente Räume über Modalitäten hinweg schaffen.³ Das Verständnis der Infrastrukturanforderungen für das Serving dieser Modelle – Speicherallokation, GPU-Auswahl, Architekturmuster und Bereitstellungsstrategien – hilft Organisationen, sich auf Workloads vorzubereiten, die zunehmend die produktive KI definieren werden.
Grundlagen der multimodalen Architektur
Fusionsstrategien
Wie Modelle visuelle und textuelle Informationen kombinieren, bestimmt die Infrastrukturanforderungen:⁴
Early Fusion: Modelle verarbeiten rohe multimodale Eingaben von Anfang an gemeinsam. Visuelle Tokens und Text-Tokens gelangen in dieselbe Transformer-Architektur und erzeugen gemeinsame Repräsentationen.
- Beispiele: Chameleon, Gemini, Llama 4
- Vorteile: Besseres modalitätsübergreifendes Verständnis, erfasst feinkörnige Interaktionen
- Anforderungen: Höhere Rechenressourcen, synchronisierte Eingaben
- Infrastrukturauswirkung: Mehr Speicher für kombinierte Token-Sequenzen
Late Fusion: Modelle verarbeiten jede Modalität unabhängig und kombinieren die Ergebnisse zum Zeitpunkt der Entscheidung. Separate Encoder verarbeiten Vision und Sprache vor der Integration.
- Beispiele: Frühere CLIP-basierte Architekturen
- Vorteile: Flexibilität, Fehlertoleranz, einfachere Inferenz
- Anforderungen: Weniger Speicherdruck während der einzelnen Kodierung
- Infrastrukturauswirkung: Modalitätsspezifische Verarbeitung kann parallelisiert werden
Apple Research Erkenntnisse (April 2025): Die Forschung zeigte, dass Early-Fusion- und Late-Fusion-Ansätze vergleichbar abschneiden, wenn sie von Grund auf trainiert werden, wobei Early Fusion bei niedrigeren Rechenbudgets Vorteile zeigt und gleichzeitig effizienter zu trainieren ist. Sparse-Architekturen mit Mixture of Experts entwickeln natürlich modalitätsspezifische Spezialisierung und verbessern die Leistung ohne erhöhte Inferenzkosten.
Architekturmuster
Adapter-basiert (Vision Encoder + LLM):⁵ Ein vortrainierter Vision-Encoder (wie SigLIP oder ViT) extrahiert visuelle Merkmale, die eine Adapter-Schicht in den Embedding-Raum des LLM projiziert. Das LLM verarbeitet dann kombinierte visuelle und Text-Tokens.
Bild → Vision Encoder → Adapter → LLM (mit Text-Tokens) → Ausgabe
- Speicher: Vision-Encoder + Adapter + LLM-Gewichte
- Beispiele: LLaVA, Qwen-VL, InternVL
- Inferenz: Vision-Kodierung erfolgt einmal pro Bild; Textgenerierung folgt Standard-LLM-Mustern
Nativ multimodal (einheitliche Architektur):⁶ Das Modell verarbeitet alle Modalitäten innerhalb einer einzigen Architektur, von Anfang an gemeinsam auf multimodalen Daten trainiert.
[Bild-Tokens + Text-Tokens] → Einheitlicher Transformer → Ausgabe
- Speicher: Einzelner Modellgewichtssatz (typischerweise größer)
- Beispiele: Gemini, GPT-4V
- Inferenz: Alle Tokens werden gemeinsam verarbeitet
Mixture of Experts (MoE) multimodal: Sparse-Expert-Architekturen aktivieren Teilmengen von Parametern pro Token. DeepSeek-VL2 aktiviert nur 1-2,8 Milliarden von insgesamt 4,5 Milliarden Parametern pro Eingabe und reduziert die Inferenzlatenz um 50-70% im Vergleich zu dichten Modellen.⁷
Speicheranforderungen
Modellgröße und VRAM
Multimodale Modelle erfordern mehr Speicher als reine Text-Äquivalente aufgrund von Vision-Encodern und längerem Kontext durch Bild-Tokens:⁸
Speicherberechnung:
Gewichtsspeicher = Parameter × Bytes pro Parameter
FP16: Parameter × 2 Bytes
FP8: Parameter × 1 Byte
INT4: Parameter × 0,5 Bytes
Beispiel (72B-Modell in FP16):
72B × 2 = 144 GB VRAM nur für Gewichte
KV-Cache für Bilder: Jedes Bild erzeugt Hunderte bis Tausende von Tokens im KV-Cache. Ein einzelnes 1024×1024-Bild kann 256-1024 visuelle Tokens erzeugen, von denen jedes Cache-Speicher proportional zur Sequenzlänge und Batch-Größe benötigt.
GPU-Konfigurationen
| Modellgröße | Präzision | Min. VRAM | Empfohlene Konfiguration |
|---|---|---|---|
| 7-8B VLM | FP16 | 16 GB | RTX 4090 / L40 |
| 7-8B VLM | INT4 | 8 GB | RTX 3090 / A10 |
| 32B VLM | FP16 | 64 GB | 2× H100 |
| 32B VLM | INT8 | 32 GB | 1× H100 / A100 |
| 72B VLM | FP16 | 144 GB | 2-4× H100 |
| 72B VLM | FP8 | 72 GB | 1-2× H100 |
| 72B VLM | INT4 | 36 GB | 1× H100 |
Auswirkung der Bildauflösung: Höher aufgelöste Bilder erzeugen mehr Tokens. Modelle, die 4K-Eingaben unterstützen, können 4-16x mehr visuelle Tokens als 512×512-Eingaben erzeugen, was die Speicheranforderungen dramatisch erhöht.
Speicheroptimierung
Quantisierungsstrategien:⁹
AWQ (Activation-aware Weight Quantization): Liefert 4-fache Speichereinsparung bei besserer Qualitätserhaltung als GPTQ. Läuft oft 2x schneller auf GPUs. Empfohlen für produktive VLM-Bereitstellung.
FP8-Quantisierung: Verfügbar auf H100/H200/B200-Hardware. Bietet 2-fache Speicherreduzierung bei minimalem Qualitätsverlust. Ermöglicht das Ausführen von 70B+-VLMs auf einzelnen 8-GPU-Knoten.
Flash Attention: Reduziert die Speicherkomplexität für Attention-Berechnungen von O(n²) auf O(n). Kritisch für lange Bild-Token-Sequenzen.
KV-Cache-Optimierung: PagedAttention (vLLM) verwaltet den KV-Cache effizient durch Paging. Verhindert Speicherfragmentierung, die sich bei Eingaben mit variabler Bildlänge ansammelt.
Serving-Infrastruktur
vLLM für Multimodal
vLLM unterstützt multimodale Modelle mit spezifischer Konfiguration:¹⁰
from vllm import LLM, SamplingParams
# Multimodales Modell initialisieren
llm = LLM(
model="Qwen/Qwen2.5-VL-72B-Instruct",
tensor_parallel_size=4, # Auf 4 GPUs verteilen
gpu_memory_utilization=0.9,
max_model_len=32768,
trust_remote_code=True,
)
# Bild + Text verarbeiten
sampling_params = SamplingParams(
temperature=0.7,
max_tokens=2048,
)
outputs = llm.generate(
[
{
"prompt": "Describe this image in detail:",
"multi_modal_data": {"image": image_data}
}
],
sampling_params=sampling_params
)
Wichtige Konfigurationen:
- tensor_parallel_size: Modell für große VLMs über GPUs verteilen
- gpu_memory_utilization: Balance zwischen Durchsatz und Reservekapazität
- max_model_len: Bild-Tokens im Kontextbudget berücksichtigen
TensorRT-LLM multimodal
NVIDIAs optimierte Inferenz mit multimodaler Unterstützung:¹¹
Unterstützte Modelle: - LLaVA-Varianten - Qwen-VL - InternVL - Benutzerdefinierte Vision-Language-Architekturen
Optimierungsfunktionen: - FP8-Quantisierung für H100/B200 - Tensor-Parallelismus über GPUs - Inflight-Batching für gemischte Workloads - Vision-Encoder-Optimierung
Triton Inference Server
Multimodale Pipelines mit Triton bereitstellen:¹²
Client-Anfrage
│
▼
┌─────────────────────┐
│ Triton Ensemble │
├─────────────────────┤
│ ┌───────────────┐ │
│ │ Image Encoder │ │ (Vision-Vorverarbeitung)
│ └───────┬───────┘ │
│ │ │
│ ┌───────▼───────┐ │
│ │ VLM Backend │ │ (Hauptmodellinferenz)
│ └───────┬───────┘ │
│ │ │
│ ┌───────▼───────┐ │
│ │ Postprocessor │ │ (Antwortformatierung)
│ └───────────────┘ │
└─────────────────────┘
Vorteile: - Pipeline-Orchestrierung für komplexe Workflows - Modellversionsverwaltung - Metriken und Monitoring - Multi-Framework-Unterstützung
Batching-Strategien
Multimodales Batching unterscheidet sich von reinen Text-LLMs:¹³
Bild-Vorverarbeitungs-Batching: Bild-Kodierung separat von der Textgenerierung batchen. Vision-Encoder verarbeiten Bilder parallel vor der LLM-Inferenz.
Dynamisches Batching mit variablen Bildern: Anfragen mit unterschiedlicher Bildzahl erzeugen Batching-Komplexität. Padding auf maximale Bilder pro Batch verschwendet Rechenleistung.
Continuous Batching: vLLMs PagedAttention ermöglicht Continuous Batching für multimodale Modelle, obwohl die Bild-Token-Verarbeitung sorgfältiges Speichermanagement erfordert.
Empfehlung: Bild-Kodierung von Textgenerierung in Produktions-Pipelines trennen. Bilder in Batches verarbeiten, dann visuelle Embeddings zusammen mit Text an das LLM übergeben.
Führende multimodale Modelle
Proprietäre Optionen
GPT-4V/GPT-4o (OpenAI):¹⁴ - Kontext: Bis zu 128K Tokens - Fähigkeiten: Bildverständnis, Dokumentenanalyse, visuelles Reasoning - Infrastruktur: Nur API (kein Self-Hosting) - Preisgestaltung: Pro Token mit Bild-Token-Kosten
Gemini Pro/Ultra (Google): - Kontext: Bis zu 1M Tokens - Fähigkeiten: Nativ multimodal (Text, Bild, Audio, Video) - Infrastruktur: Vertex AI oder API - Optimierung: TPU v4/v5 optimiert
Claude 3.5 (Anthropic): - Kontext: 200K Tokens - Fähigkeiten: Bildverständnis, Dokumentenanalyse - Infrastruktur: API oder Amazon Bedrock - Stärke: Dokument- und Diagrammverständnis
Open-Source-Optionen
Qwen2.5-VL (Alibaba):¹⁵ - Größen: 3B, 7B, 72B - Kontext: 32K Tokens Standard - Fähigkeiten: Vision-Language-Reasoning, agentische Aufgaben - Infrastruktur: Self-Hosting möglich, vLLM-Unterstützung - Am besten für: Agentische Workflows, Produktionsbereitstellung
InternVL3 (OpenGVLab): - Größen: Bis zu 78B Parameter - Fähigkeiten: Nahe GPT-4V-Leistung - Infrastruktur: Vollständig offene Gewichte - Am besten für: Hochwertige selbst gehostete Vision
Llama 3.2 Vision (Meta): - Größen: 11B, 90B - Fähigkeiten: Bildverständnis - Infrastruktur: Breite Ökosystem-Unterstützung - Am besten für: Organisationen, die bereits Llama nutzen
DeepSeek-VL2: - Architektur: MoE mit 1-2,8B aktiven Parametern - Effizienz: 50-70% Latenzreduzierung gegenüber dichten Modellen - Am besten für: Kostensensitive Bereitstellungen
Modellauswahlkriterien
| Faktor | Proprietäre API | Self-Hosted Open |
|---|---|---|
| Setup-Komplexität | Niedrig | Hoch |
| Inferenzkosten | Pro Token | Infrastruktur |
| Datenschutz | Daten extern gesendet | Volle Kontrolle |
| Anpassbarkeit | Begrenzt | Feinabstimmung verfügbar |
| Latenz | Netzwerkabhängig | Kontrollierbar |
| Skalierungsflexibilität | Sofort | Kapazitätsplanung |
Produktionsbereitstellungsmuster
Cloud-Bereitstellung
Single-GPU-Inferenz (kleine Modelle):
# Kubernetes-Pod für 7B VLM
resources:
limits:
nvidia.com/gpu: 1
memory: "32Gi"
requests:
nvidia.com/gpu: 1
memory: "24Gi"
Multi-GPU-Inferenz (große Modelle):
# Kubernetes-Deployment für 72B VLM
resources:
limits:
nvidia.com/gpu: 4 # 4× H100 für 72B FP8
memory: "512Gi"
Autoscaling-Überlegungen: - VLM-Kaltstarts sind langsamer (Laden von Vision-Encoder + LLM) - Warme Instanzen für latenzsensitive Workloads vorhalten - Skalierung basierend auf GPU-Auslastung und Warteschlangentiefe
Edge-Bereitstellung
Edge-VLM-Bereitstellung ermöglicht Vision-Intelligenz auf dem Gerät:¹⁶
RamaLama-Bereitstellung: Container-native Philosophie vereinfacht die Edge-Bereitstellung:
# VLM auf Edge-Gerät bereitstellen
ramalama run qwen2.5-vl-3b
# Bereitstellungsartefakte für Kubernetes generieren
ramalama generate --kubernetes qwen2.5-vl-3b
Edge-optimierte Modelle: - Mistrals leichtgewichtige VLMs für Mobile/Edge - MiniCPM-V übertrifft GPT-4V und läuft auf Smartphones - DeepSeek-VL2 MoE für effiziente Edge-Inferenz
Anwendungsfälle: - Smart Glasses und AR-Headsets - In-Car-Assistenten - Industrielle Inspektionssysteme - Einzelhandelsautomatisierung
[Inhalt für Übersetzung gekürzt]