Multi-modale AI-infrastructuur: Implementatiegids voor Vision-Language Modellen
Open-source VLM's (Qwen2.5-VL-72B, InternVL3-78B) presteren nu binnen 5-10% van propriëtaire OpenAI/Google-modellen. Google Gemini is vanaf de basis opgebouwd als multimodaal (tekst, code, audio, afbe...