ओपन सोर्स AI मॉडल अंतर कम कर रहे हैं: DeepSeek, Qwen3 और Llama 4 अब GPT-5 के बराबर
सारांश
ओपन-सोर्स और प्रोप्राइटरी AI मॉडल के बीच प्रदर्शन का अंतर 2025 में प्रमुख बेंचमार्क पर 17.5 प्रतिशत अंकों से घटकर केवल 0.3% रह गया है। DeepSeek V3.2, Qwen3-235B और Llama 4 Scout अब GPT-5.2 और Claude Opus 4.5 की लागत के एक अंश पर प्रतिस्पर्धा कर रहे हैं—पूर्ण सेल्फ-होस्टिंग क्षमता के साथ। API निर्भरता बनाम इंफ्रास्ट्रक्चर निवेश का मूल्यांकन करने वाले उद्यमों के लिए, गणना मौलिक रूप से बदल गई है।
क्या हुआ
दिसंबर 2025 AI मॉडल परिदृश्य में एक टर्निंग पॉइंट को चिह्नित करता है। ओपन-सोर्स लार्ज लैंग्वेज मॉडल ने सबसे सक्षम प्रोप्राइटरी सिस्टम के साथ लगभग समानता हासिल कर ली है, जिससे कई वर्षों के क्लोज्ड-मॉडल वर्चस्व का अंत हो गया है।
आंकड़े कहानी बताते हैं। 94 प्रमुख LLM के विश्लेषण से पता चलता है कि ओपन-सोर्स मॉडल अब MMLU पर प्रोप्राइटरी सिस्टम से केवल 0.3 प्रतिशत अंक पीछे हैं—जबकि एक साल पहले यह अंतर 17.5 अंक था। Chatbot Arena पर, जो 5M+ उपयोगकर्ता वोटों द्वारा संचालित मानव-वरीयता लीडरबोर्ड है, ओपन-वेट मॉडल ने जनवरी 2024 और फरवरी 2025 के बीच अंतर को 8% से 1.7% तक कम कर दिया। यह अंतर और भी कम होता जा रहा है।
तीन मॉडल परिवार ओपन-सोर्स की अगुवाई कर रहे हैं:
DeepSeek V3.2 1 दिसंबर 2025 को लॉन्च हुआ, जिसने कई रीजनिंग बेंचमार्क पर GPT-5 के साथ समानता हासिल की। चीनी लैब का Mixture-of-Experts आर्किटेक्चर प्रति टोकन अपने 671B पैरामीटर में से केवल 37B को सक्रिय करता है, जिससे कमोडिटी लागत पर फ्रंटियर प्रदर्शन संभव होता है।
Qwen3-235B-A22B अलीबाबा से है और अधिकांश सार्वजनिक बेंचमार्क पर GPT-4o के बराबर या बेहतर है, जबकि केवल अपने 235B पैरामीटर में से 22B को सक्रिय करता है। इसके जुलाई 2025 के thinking अपडेट ने ओपन-सोर्स रीजनिंग मॉडल में अत्याधुनिक परिणाम हासिल किए।
Llama 4 Scout Meta से है और 10 मिलियन टोकन का कॉन्टेक्स्ट विंडो प्रदान करता है—एक सत्र में 7,500 पेज प्रोसेस करने के लिए पर्याप्त—जबकि INT4 क्वांटाइजेशन के साथ एकल H100 GPU पर चलता है।
ओपन-सोर्स मॉडल अब मॉडल गणना के हिसाब से बाजार का 62.8% प्रतिनिधित्व करते हैं। बदलाव तेजी से हुआ। दो साल पहले, प्रोप्राइटरी मॉडल का वर्चस्व था।
यह क्यों मायने रखता है
AI इंफ्रास्ट्रक्चर बनाने वाले उद्यमों के लिए, यह अभिसरण बिल्ड-बनाम-बाय गणना को फिर से आकार दे रहा है।
लागत गतिशीलता उलट गई है। DeepSeek V3.2 की लागत $0.26 प्रति मिलियन इनपुट टोकन है—GPT-5.2 Pro से लगभग 10 गुना सस्ता। Mistral Medium 3 $0.40 प्रति मिलियन टोकन पर Claude Sonnet 3.7 के 90% प्रदर्शन प्रदान करता है, GPT-4 से 8 गुना सस्ता। संगठन प्रोप्राइटरी-ओनली रणनीतियों की तुलना में ओपन-सोर्स दृष्टिकोण के साथ 25% अधिक ROI की रिपोर्ट करते हैं।
डेटा नियंत्रण संभव हो जाता है। सेल्फ-होस्टिंग संवेदनशील जानकारी को पूरी तरह से संगठनात्मक इंफ्रास्ट्रक्चर के भीतर रखता है। हेल्थकेयर कंपनियां बाहरी ट्रांसमिशन से HIPAA उल्लंघन जोखिम के बिना ऑन-प्रिमाइसेस पर रोगी डेटा क्वेरी चला सकती हैं। वित्तीय संस्थान ट्रेडिंग एल्गोरिदम और ग्राहक डेटा पर पूर्ण नियंत्रण बनाए रखते हैं।
डिप्लॉयमेंट लचीलापन बढ़ता है। Mistral Medium 3 केवल चार GPU पर चलता है। Llama 4 Scout एक H100 पर फिट हो जाता है। ये मॉडल हाइब्रिड वातावरण, ऑन-प्रिमाइसेस डेटा सेंटर या एज लोकेशन में डिप्लॉय किए जा सकते हैं—API-ओनली प्रोप्राइटरी सेवाओं के साथ असंभव।
वेंडर लॉक-इन समाप्त होता है। सेल्फ-होस्टेड मॉडल प्रदाताओं द्वारा पुराने संस्करण बंद करने पर अप्रचलित नहीं होते। संगठन अपने अपग्रेड टाइमलाइन को नियंत्रित करते हैं, मॉडल स्थिरता बनाए रखते हैं, और उपयोग-आधारित मूल्य निर्धारण अस्थिरता से बचते हैं जिसने PPA बाजारों को विक्रेता-अनुकूल बना दिया है।
तकनीकी विवरण
मॉडल विनिर्देश
| मॉडल | कुल पैराम्स | सक्रिय पैराम्स | कॉन्टेक्स्ट | इनपुट लागत/M | आउटपुट लागत/M |
|---|---|---|---|---|---|
| DeepSeek V3.2 | 671B | 37B | 128K | $0.26 | $0.39 |
| Qwen3-235B | 235B | 22B | 256K | $0.20 | $1.20 |
| Llama 4 Scout | 109B | 17B | 10M | $0.08 | $0.30 |
| Mistral Medium 3 | — | — | 131K | $0.40 | $2.00 |
| Mistral Large 3 | 675B | 41B | 256K | — | — |
बेंचमार्क प्रदर्शन
कोडिंग: DeepSeek V3.2 लॉन्ग-टेल एजेंट कार्यों पर असाधारण दक्षता प्रदर्शित करता है, thinking को सीधे टूल उपयोग में एकीकृत करता है। Qwen3-235B LiveCodeBench v6 पर 74.8 हासिल करता है। Llama 4 Scout ने LiveCodeBench पर 38.1% हासिल किया, GPT-4o के 32.3% को पीछे छोड़ दिया।
रीजनिंग: Qwen3-235B AIME'24 पर 85.7 और AIME'25 पर 81.5 स्कोर करता है। thinking मोड में, यह AIME25 पर 92.3 तक पहुंचता है। DeepSeek V3.2-Speciale Gemini-3.0-Pro के साथ समानता और IOI 2025, ICPC World Final 2025, IMO 2025, और CMO 2025 में स्वर्ण पदक स्तर का प्रदर्शन हासिल करता है।
लॉन्ग कॉन्टेक्स्ट: Llama 4 Scout की 10M कॉन्टेक्स्ट विंडो पूरे कानूनी दस्तावेजों, शोध पत्र संग्रह, या सॉफ्टवेयर रिपॉजिटरी को प्रोसेस करने को एकल सत्रों में संभव बनाती है।
आर्किटेक्चर इनोवेशन
DeepSeek V3.2 DeepSeek Sparse Attention (DSA) पेश करता है, फाइन-ग्रेंड स्पार्स अटेंशन प्राप्त करता है जो मॉडल आउटपुट गुणवत्ता बनाए रखते हुए लॉन्ग-कॉन्टेक्स्ट दक्षता में पर्याप्त सुधार करता है।
DeepSeek V3.1 का हाइब्रिड thinking मोड चैट टेम्पलेट परिवर्तनों के माध्यम से chain-of-thought रीजनिंग और सीधे उत्तरों के बीच स्विच करता है—एक मॉडल सामान्य-उद्देश्य और रीजनिंग-हैवी दोनों उपयोग मामलों को कवर करता है।
Mistral 3 की Ministral लाइनअप 3B, 8B और 14B पैरामीटर में नौ डेंस मॉडल प्रदान करती है, प्रत्येक Base, Instruct और Reasoning वेरिएंट में। 14B रीजनिंग मॉडल AIME 2025 पर 85% प्राप्त करता है, एकल GPU पर चलता है।
सेल्फ-होस्टिंग आवश्यकताएं
| मॉडल | न्यूनतम हार्डवेयर | अनुशंसित |
|---|---|---|
| DeepSeek V3.2 | 8x H100 80GB | 16x H100 |
| Qwen3-235B | 8x H100 80GB | 8x H200 |
| Llama 4 Scout | 1x H100 (INT4) | 2x H100 |
| Mistral Medium 3 | 4x GPU | 8x A100/H100 |
| Ministral 3 14B | 1x कंज्यूमर GPU | 1x A100 |
OpenLLM जैसे टूल सरल कमांड के साथ किसी भी ओपन-सोर्स मॉडल को OpenAI-संगत API एंडपॉइंट के रूप में चलाने में सक्षम बनाते हैं। Ray Serve और Hugging Face TGI Kubernetes डिप्लॉयमेंट को सरल बनाते हैं।
आगे क्या है
ओपन-सोर्स गति धीमी होने के कोई संकेत नहीं दिखाती। DeepSeek की प्रशिक्षण दक्षता—180K H800 GPU घंटे प्रति ट्रिलियन टोकन—निरंतर तेज पुनरावृत्ति का सुझाव देती है। Qwen3 का जुलाई 2025 thinking अपडेट दर्शाता है कि पोस्ट-ट्रेनिंग सुधार स्केल होते रहते हैं।
Q1 2026 में उम्मीद करें: - Llama 4 Scout के 10M टोकन से परे कॉन्टेक्स्ट विंडो का और विस्तार - टूल उपयोग परिपक्व होने के साथ बेहतर एजेंटिक क्षमताएं - छोटे, अधिक कुशल मॉडल वर्तमान फ्रंटियर प्रदर्शन तक पहुंच रहे हैं
अभी भी API-ओनली रणनीतियों का मूल्यांकन करने वाले संगठनों के लिए, प्रोप्राइटरी लॉक-इन की विंडो बंद हो रही है। 89% संगठन अब ओपन-सोर्स AI का उपयोग कर रहे हैं, सवाल "क्या" से "कौन से मॉडल और कितनी तेजी से" में बदल गया है।
Introl परिप्रेक्ष्य
फ्रंटियर-क्लास ओपन-सोर्स मॉडल की सेल्फ-होस्टिंग के लिए महत्वपूर्ण GPU इंफ्रास्ट्रक्चर, कुशल कूलिंग सिस्टम और परिचालन विशेषज्ञता की आवश्यकता होती है। Introl के 550 HPC-विशेषज्ञ फील्ड इंजीनियर उन एक्सेलेरेटर क्लस्टर को डिप्लॉय और मेंटेन करते हैं जिनकी ये मॉडल मांग करते हैं। हमारे कवरेज क्षेत्र के बारे में अधिक जानें।
प्रकाशित: 18 दिसंबर 2025