Open source AI-modellen dichten de kloof: DeepSeek, Qwen3 en Llama 4 evenaren nu GPT-5

Het prestatieverschil tussen open en gesloten AI-modellen is gedaald tot 0,3%. Dit is wat dat betekent voor enterprise AI-infrastructuur.

Open source AI-modellen dichten de kloof: DeepSeek, Qwen3 en Llama 4 evenaren nu GPT-5

Open source AI-modellen dichten de kloof: DeepSeek, Qwen3 en Llama 4 evenaren nu GPT-5

Samenvatting

Het prestatieverschil tussen open source en propriëtaire AI-modellen is gedaald van 17,5 procentpunten naar slechts 0,3% op belangrijke benchmarks in 2025. DeepSeek V3.2, Qwen3-235B en Llama 4 Scout wedijveren nu met GPT-5.2 en Claude Opus 4.5 tegen een fractie van de kosten—met volledige self-hosting mogelijkheid. Voor ondernemingen die API-afhankelijkheid afwegen tegen infrastructuurinvesteringen is de rekensom fundamenteel veranderd.


Wat er gebeurde

December 2025 markeert een keerpunt in het AI-modellandschap. Open source large language models hebben bijna pariteit bereikt met de meest capabele propriëtaire systemen, waarmee een einde komt aan een meerjarige periode van dominantie door gesloten modellen.

De cijfers vertellen het verhaal. Analyse van 94 toonaangevende LLM's toont aan dat open source modellen nu binnen 0,3 procentpunten van propriëtaire systemen liggen op MMLU—een daling van een verschil van 17,5 punten slechts een jaar geleden. Op Chatbot Arena, de ranglijst voor menselijke voorkeur aangedreven door meer dan 5 miljoen gebruikersstemmen, dichtten open-weight modellen de kloof van 8% naar 1,7% tussen januari 2024 en februari 2025. Die kloof is blijven krimpen.

Drie modelfamilies leiden de open source opmars:

DeepSeek V3.2 lanceerde op 1 december 2025 en behaalde pariteit met GPT-5 op meerdere reasoning benchmarks. De Mixture-of-Experts architectuur van het Chinese lab activeert slechts 37B van zijn 671B parameters per token, waardoor frontier-prestaties tegen gangbare kosten mogelijk zijn.

Qwen3-235B-A22B van Alibaba evenaart of overtreft GPT-4o op de meeste openbare benchmarks terwijl het slechts 22B van zijn 235B parameters activeert. De thinking-update van juli 2025 behaalde state-of-the-art resultaten onder open source reasoning modellen.

Llama 4 Scout van Meta biedt een contextvenster van 10 miljoen tokens—genoeg om 7.500 pagina's in één sessie te verwerken—terwijl het draait op een enkele H100 GPU met INT4-kwantisatie.

Open source modellen vertegenwoordigen nu 62,8% van de markt qua aantal modellen. De verschuiving ging snel. Twee jaar geleden domineerden propriëtaire modellen.


Waarom het ertoe doet

Voor ondernemingen die AI-infrastructuur bouwen, hervormt deze convergentie de bouwen-versus-kopen afweging.

Kostendynamiek is omgekeerd. DeepSeek V3.2 kost $0,26 per miljoen input tokens—ongeveer 10x goedkoper dan GPT-5.2 Pro. Mistral Medium 3 levert 90% van Claude Sonnet 3.7 prestaties voor $0,40 per miljoen tokens, 8x goedkoper dan GPT-4. Organisaties rapporteren 25% hogere ROI met open source benaderingen vergeleken met propriëtaire-only strategieën.

Datacontrole wordt mogelijk. Self-hosting houdt gevoelige informatie volledig binnen de organisatie-infrastructuur. Zorginstellingen kunnen patiëntgegevensqueries on-premises uitvoeren zonder HIPAA-overtredingsrisico's door externe verzending. Financiële instellingen behouden volledige controle over handelsalgoritmen en klantgegevens.

Deployment-flexibiliteit breidt uit. Mistral Medium 3 draait op slechts vier GPU's. Llama 4 Scout past op een enkele H100. Deze modellen kunnen worden ingezet in hybride omgevingen, on-premises datacenters of edge-locaties—onmogelijk met API-only propriëtaire diensten.

Vendor lock-in verdwijnt. Self-hosted modellen worden niet obsoleet wanneer providers oudere versies uitfaseren. Organisaties bepalen hun eigen upgradetijdlijnen, behouden modelconsistentie en vermijden de op gebruik gebaseerde prijsvolatiliteit die PPA-markten steeds gunstiger voor verkopers heeft gemaakt.


Technische details

Modelspecificaties

Model Totaal Params Actieve Params Context Input Kosten/M Output Kosten/M
DeepSeek V3.2 671B 37B 128K $0,26 $0,39
Qwen3-235B 235B 22B 256K $0,20 $1,20
Llama 4 Scout 109B 17B 10M $0,08 $0,30
Mistral Medium 3 131K $0,40 $2,00
Mistral Large 3 675B 41B 256K

Benchmark-prestaties

Codering: DeepSeek V3.2 demonstreert uitzonderlijke vaardigheid op long-tail agent-taken, waarbij thinking direct wordt geïntegreerd in tool use. Qwen3-235B behaalt 74,8 op LiveCodeBench v6. Llama 4 Scout behaalde 38,1% op LiveCodeBench, beter dan GPT-4o's 32,3%.

Reasoning: Qwen3-235B scoort 85,7 op AIME'24 en 81,5 op AIME'25. In thinking-modus bereikt het 92,3 op AIME25. DeepSeek V3.2-Speciale behaalt Gemini-3.0-Pro pariteit en gouden-medaille prestaties op IOI 2025, ICPC World Final 2025, IMO 2025 en CMO 2025.

Lange Context: Het 10M contextvenster van Llama 4 Scout maakt het mogelijk om complete juridische documenten, onderzoeksartikelverzamelingen of software-repositories in enkele sessies te verwerken.

Architectuurinnovaties

DeepSeek V3.2 introduceert DeepSeek Sparse Attention (DSA), wat fijnmazige sparse attention bereikt voor substantiële efficiëntieverbeteringen bij lange context met behoud van modeloutputkwaliteit.

DeepSeek V3.1's hybride thinking-modus schakelt tussen chain-of-thought reasoning en directe antwoorden via chat template-wijzigingen—één model dekt zowel algemene als reasoning-intensieve use cases.

Mistral 3's Ministral-lineup biedt negen dense modellen over 3B, 8B en 14B parameters, elk in Base, Instruct en Reasoning-varianten. Het 14B reasoning model bereikt 85% op AIME 2025 en draait op een enkele GPU.

Self-hosting vereisten

Model Minimale Hardware Aanbevolen
DeepSeek V3.2 8x H100 80GB 16x H100
Qwen3-235B 8x H100 80GB 8x H200
Llama 4 Scout 1x H100 (INT4) 2x H100
Mistral Medium 3 4x GPU 8x A100/H100
Ministral 3 14B 1x consumer GPU 1x A100

Tools zoals OpenLLM maken het mogelijk om elk open source model als OpenAI-compatibele API-endpoints te draaien met enkele commando's. Ray Serve en Hugging Face TGI vereenvoudigen Kubernetes-deployment.


Wat komt er

Het open source momentum vertoont geen tekenen van vertraging. DeepSeek's trainingsefficiëntie—180K H800 GPU-uren per biljoen tokens—suggereert voortdurende snelle iteratie. Qwen3's thinking-update van juli 2025 demonstreerde dat post-training verbeteringen blijven schalen.

Verwacht in Q1 2026: - Verdere contextvenster-uitbreiding voorbij Llama 4 Scout's 10M tokens - Verbeterde agentic capabilities naarmate tool use volwassener wordt - Kleinere, efficiëntere modellen die huidige frontier-prestaties bereiken

Voor organisaties die nog steeds API-only strategieën evalueren, sluit het venster voor propriëtaire lock-in zich. Met 89% van organisaties die nu open source AI gebruiken, is de vraag verschoven van "of" naar "welke modellen en hoe snel."


Introl-perspectief

Het zelf hosten van frontier-klasse open source modellen vereist significante GPU-infrastructuur, efficiënte koelsystemen en operationele expertise. Introl's 550 HPC-gespecialiseerde field engineers deployen en onderhouden de accelerator-clusters die deze modellen vereisen. Lees meer over ons dekkingsgebied.


Gepubliceerd: 18 december 2025

Offerte aanvragen_

Vertel ons over uw project en wij reageren binnen 72 uur.

> TRANSMISSIE_VOLTOOID

Aanvraag Ontvangen_

Bedankt voor uw aanvraag. Ons team zal uw verzoek beoordelen en binnen 72 uur reageren.

IN WACHTRIJ VOOR VERWERKING