ओपन सोर्स AI मॉडल अंतर को पाट रहे हैं: DeepSeek, Qwen3, और Llama 4 अब GPT-5 की बराबरी कर रहे हैं
संक्षेप में
ओपन-सोर्स और प्रोप्राइटरी AI मॉडल के बीच प्रदर्शन का अंतर 2025 में प्रमुख बेंचमार्क पर 17.5 प्रतिशत अंकों से घटकर मात्र 0.3% रह गया है। DeepSeek V3.2, Qwen3-235B, और Llama 4 Scout अब GPT-5.2 और Claude Opus 4.5 को बहुत कम लागत पर टक्कर दे रहे हैं—पूर्ण सेल्फ-होस्टिंग क्षमता के साथ। API निर्भरता बनाम इंफ्रास्ट्रक्चर निवेश का आकलन करने वाले एंटरप्राइजेज के लिए, गणित मूल रूप से बदल गया है।
क्या हुआ
दिसंबर 2025 AI मॉडल परिदृश्य में एक महत्वपूर्ण मोड़ है। ओपन-सोर्स लार्ज लैंग्वेज मॉडल ने सबसे सक्षम प्रोप्राइटरी सिस्टम के साथ लगभग बराबरी हासिल कर ली है, जिससे क्लोज्ड-मॉडल के वर्चस्व का बहु-वर्षीय दौर समाप्त हो गया है।
आंकड़े कहानी बयान करते हैं। 94 प्रमुख LLM के विश्लेषण से पता चलता है कि ओपन-सोर्स मॉडल अब MMLU पर प्रोप्राइटरी सिस्टम से केवल 0.3 प्रतिशत अंक पीछे हैं—जो सिर्फ एक साल पहले 17.5 अंकों के अंतर से कम हुआ है। Chatbot Arena पर, जो 5M+ उपयोगकर्ता वोटों द्वारा संचालित ह्यूमन-प्रेफरेंस लीडरबोर्ड है, ओपन-वेट मॉडल ने जनवरी 2024 और फरवरी 2025 के बीच अंतर को 8% से 1.7% तक कम कर दिया। यह अंतर लगातार सिकुड़ता जा रहा है।
तीन मॉडल फैमिली ओपन-सोर्स की अगुवाई कर रही हैं:
DeepSeek V3.2 1 दिसंबर, 2025 को लॉन्च हुआ, जिसने कई रीजनिंग बेंचमार्क पर GPT-5 के साथ समानता हासिल की। चीनी लैब का Mixture-of-Experts आर्किटेक्चर प्रति टोकन अपने 671B पैरामीटर में से केवल 37B को एक्टिवेट करता है, जो कमोडिटी लागत पर फ्रंटियर प्रदर्शन सक्षम बनाता है।
Qwen3-235B-A22B Alibaba से अधिकांश पब्लिक बेंचमार्क पर GPT-4o की बराबरी या उससे बेहतर है जबकि अपने 235B पैरामीटर में से केवल 22B को एक्टिवेट करता है। इसके जुलाई 2025 थिंकिंग अपडेट ने ओपन-सोर्स रीजनिंग मॉडल में स्टेट-ऑफ-द-आर्ट परिणाम हासिल किए।
Llama 4 Scout Meta से 10 मिलियन टोकन कॉन्टेक्स्ट विंडो प्रदान करता है—एक सत्र में 7,500 पेज प्रोसेस करने के लिए पर्याप्त—जबकि INT4 क्वांटाइजेशन के साथ एक H100 GPU पर चलता है।
ओपन-सोर्स मॉडल अब मॉडल गणना के हिसाब से 62.8% बाजार का प्रतिनिधित्व करते हैं। यह बदलाव तेजी से हुआ। दो साल पहले, प्रोप्राइटरी मॉडल का दबदबा था।
यह क्यों मायने रखता है
AI इंफ्रास्ट्रक्चर बनाने वाले एंटरप्राइजेज के लिए, यह अभिसरण बिल्ड-वर्सस-बाय कैलकुलेशन को नया रूप देता है।
लागत की गतिशीलता उलट गई है। DeepSeek V3.2 की कीमत $0.26 प्रति मिलियन इनपुट टोकन है—GPT-5.2 Pro से लगभग 10 गुना सस्ता। Mistral Medium 3 $0.40 प्रति मिलियन टोकन पर Claude Sonnet 3.7 का 90% प्रदर्शन देता है, GPT-4 से 8 गुना सस्ता। संगठन केवल-प्रोप्राइटरी रणनीतियों की तुलना में ओपन-सोर्स दृष्टिकोण के साथ 25% अधिक ROI रिपोर्ट करते हैं।
डेटा नियंत्रण संभव हो जाता है। सेल्फ-होस्टिंग संवेदनशील जानकारी को पूरी तरह से संगठनात्मक इंफ्रास्ट्रक्चर के भीतर रखती है। हेल्थकेयर कंपनियां बाहरी ट्रांसमिशन से HIPAA उल्लंघन जोखिमों के बिना ऑन-प्रिमाइसेस पर रोगी डेटा क्वेरी चला सकती हैं। वित्तीय संस्थान ट्रेडिंग एल्गोरिदम और क्लाइंट डेटा पर पूर्ण नियंत्रण बनाए रखते हैं।
डिप्लॉयमेंट लचीलापन बढ़ता है। Mistral Medium 3 कम से कम चार GPU पर चलता है। Llama 4 Scout एक H100 पर फिट होता है। ये मॉडल हाइब्रिड वातावरण, ऑन-प्रिमाइसेस डेटा सेंटर, या एज लोकेशन में डिप्लॉय हो सकते हैं—जो API-ओनली प्रोप्राइटरी सेवाओं के साथ असंभव है।
वेंडर लॉक-इन समाप्त होता है। सेल्फ-होस्टेड मॉडल तब पुराने नहीं पड़ते जब प्रोवाइडर पुराने वर्जन को रिटायर करते हैं। संगठन अपनी अपग्रेड टाइमलाइन को नियंत्रित करते हैं, मॉडल की स्थिरता बनाए रखते हैं, और उपयोग-आधारित मूल्य निर्धारण की अस्थिरता से बचते हैं जिसने PPA बाजारों को तेजी से विक्रेता-अनुकूल बना दिया है।
तकनीकी विवरण
मॉडल विनिर्देश
| मॉडल | कुल पैरामीटर | एक्टिव पैरामीटर | कॉन्टेक्स्ट | इनपुट कॉस्ट/M | आउटपुट कॉस्ट/M |
|---|---|---|---|---|---|
| DeepSeek V3.2 | 671B | 37B | 128K | $0.26 | $0.39 |
| Qwen3-235B | 235B | 22B | 256K | $0.20 | $1.20 |
| Llama 4 Scout | 109B | 17B | 10M | $0.08 | $0.30 |
| Mistral Medium 3 | — | — | 131K | $0.40 | $2.00 |
| Mistral Large 3 | 675B | 41B | 256K | — | — |
बेंचमार्क प्रदर्शन
कोडिंग: DeepSeek V3.2 लॉन्ग-टेल एजेंट टास्क पर असाधारण दक्षता प्रदर्शित करता है, थिंकिंग को सीधे टूल उपयोग में एकीकृत करता है। Qwen3-235B LiveCodeBench v6 पर 74.8 हासिल करता है। Llama 4 Scout ने LiveCodeBench पर 38.1% स्कोर किया, GPT-4o के 32.3% से बेहतर।
रीजनिंग: Qwen3-235B AIME'24 पर 85.7 और AIME'25 पर 81.5 स्कोर करता है। थिंकिंग मोड में, यह AIME25 पर 92.3 तक पहुंचता है। DeepSeek V3.2-Speciale Gemini-3.0-Pro समानता और IOI 2025, ICPC World Final 2025, IMO 2025, और CMO 2025 में गोल्ड-मेडल प्रदर्शन हासिल करता है।
लॉन्ग कॉन्टेक्स्ट: Llama 4 Scout की 10M कॉन्टेक्स्ट विंडो एकल सत्रों में पूरे कानूनी दस्तावेज, रिसर्च पेपर संग्रह, या सॉफ्टवेयर रिपॉजिटरी प्रोसेस करने में सक्षम बनाती है।
आर्किटेक्चर इनोवेशन
DeepSeek V3.2 DeepSeek Sparse Attention (DSA) पेश करता है, जो मॉडल आउटपुट गुणवत्ता बनाए रखते हुए पर्याप्त लॉन्ग-कॉन्टेक्स्ट दक्षता सुधार के लिए फाइन-ग्रेन्ड स्पार्स अटेंशन हासिल करता है।
DeepSeek V3.1 का हाइब्रिड थिंकिंग मोड चैट टेम्पलेट परिवर्तनों के माध्यम से चेन-ऑफ-थॉट रीजनिंग और सीधे उत्तरों के बीच स्विच करता है—एक मॉडल सामान्य-उद्देश्य और रीजनिंग-हेवी दोनों उपयोग मामलों को कवर करता है।
Mistral 3 की Ministral लाइनअप 3B, 8B, और 14B पैरामीटर में नौ डेंस मॉडल प्रदान करती है, प्रत्येक Base, Instruct, और Reasoning वेरिएंट में। 14B रीजनिंग मॉडल AIME 2025 पर 85% तक पहुंचता है, एक GPU पर चलते हुए।
सेल्फ-होस्टिंग आवश्यकताएं
| मॉडल | न्यूनतम हार्डवेयर | अनुशंसित |
|---|---|---|
| DeepSeek V3.2 | 8x H100 80GB | 16x H100 |
| Qwen3-235B | 8x H100 80GB | 8x H200 |
| Llama 4 Scout | 1x H100 (INT4) | 2x H100 |
| Mistral Medium 3 | 4x GPU | 8x A100/H100 |
| Ministral 3 14B | 1x consumer GPU | 1x A100 |
OpenLLM जैसे टूल किसी भी ओपन-सोर्स मॉडल को सिंगल कमांड के साथ OpenAI-कम्पैटिबल API एंडपॉइंट के रूप में चलाने में सक्षम बनाते हैं। Ray Serve और Hugging Face TGI Kubernetes डिप्लॉयमेंट को सरल बनाते हैं।
आगे क्या है
ओपन-सोर्स की गति धीमी होने के कोई संकेत नहीं दिखाती। DeepSeek की ट्रेनिंग दक्षता—प्रति ट्रिलियन टोकन 180K H800 GPU घंटे—निरंतर तीव्र पुनरावृत्ति का सुझाव देती है। Qwen3 के जुलाई 2025 थिंकिंग अपडेट ने प्रदर्शित किया कि पोस्ट-ट्रेनिंग सुधार स्केल होते रहते हैं।
Q1 2026 में उम्मीद करें: - Llama 4 Scout के 10M टोकन से परे कॉन्टेक्स्ट विंडो का और विस्तार - टूल उपयोग के परिपक्व होने पर बेहतर एजेंटिक क्षमताएं - छोटे, अधिक कुशल मॉडल जो वर्तमान फ्रंटियर प्रदर्शन तक पहुंचते हैं
API-ओनली रणनीतियों का अभी भी मूल्यांकन कर रहे संगठनों के लिए, प्रोप्राइटरी लॉक-इन की खिड़की बंद हो रही है। 89% संगठन अब ओपन-सोर्स AI का उपयोग कर रहे हैं, सवाल "क्या" से बदलकर "कौन से मॉडल और कितनी तेजी से" हो गया है।
Introl का दृष्टिकोण
फ्रंटियर-क्लास ओपन-सोर्स मॉडल को सेल्फ-होस्ट करने के लिए महत्वपूर्ण GPU इंफ्रास्ट्रक्चर, कुशल कूलिंग सिस्टम, और ऑपरेशनल विशेषज्ञता की आवश्यकता होती है। Introl के 550 HPC-विशेषज्ञ फील्ड इंजीनियर उन एक्सेलेरेटर क्लस्टर को डिप्लॉय और मेंटेन करते हैं जिनकी ये मॉडल मांग करते हैं। हमारे कवरेज एरिया के बारे में अधिक जानें।
प्रकाशित: 18 दिसंबर, 2025