वॉइस AI इन्फ्रास्ट्रक्चर: रियल-टाइम स्पीच एजेंट्स का निर्माण

Deepgram STT 150ms पर, ElevenLabs TTS 75ms पर—फिर भी अधिकांश एजेंट्स स्टैक लेटेंसी कंपाउंडिंग के कारण 800ms-2s ले रहे हैं। मानव वार्तालाप के लिए 300-500ms रिस्पॉन्स विंडो आवश्यक है। पाइपलाइन लेटेंसी: STT...

वॉइस AI इन्फ्रास्ट्रक्चर: रियल-टाइम स्पीच एजेंट्स का निर्माण

वॉइस AI इन्फ्रास्ट्रक्चर: रियल-टाइम स्पीच एजेंट्स का निर्माण

11 दिसंबर, 2025 को अपडेट किया गया

दिसंबर 2025 अपडेट: Deepgram STT 150ms पर, ElevenLabs TTS 75ms पर—फिर भी अधिकांश एजेंट्स स्टैक लेटेंसी कंपाउंडिंग के कारण 800ms-2s ले रहे हैं। मानव वार्तालाप के लिए 300-500ms रिस्पॉन्स विंडो आवश्यक है। पाइपलाइन लेटेंसी: STT (100-500ms) + LLM (350ms-1s+) + TTS (75-200ms)। प्रोडक्शन वॉइस एजेंट्स के लिए हर मिलीसेकंड मायने रखती है।

Deepgram स्पीच-टू-टेक्स्ट 150 मिलीसेकंड में देता है। ElevenLabs 75 मिलीसेकंड में वॉइस सिंथेसाइज़ करता है। फिर भी अधिकांश वॉइस AI एजेंट्स को जवाब देने में 800 मिलीसेकंड से दो सेकंड लगते हैं—क्योंकि पूरे स्टैक में लेटेंसी कंपाउंड होती है।¹ कंपोनेंट क्षमताओं और एंड-टू-एंड परफॉर्मेंस के बीच का अंतर वॉइस AI के केंद्र में इन्फ्रास्ट्रक्चर चुनौती को प्रकट करता है: स्पीच रिकग्निशन, लैंग्वेज मॉडल्स और सिंथेसिस को ऐसी पाइपलाइनों में ऑर्केस्ट्रेट करना जो मानव वार्तालाप टाइमिंग से मेल खाती हों।

मानव वार्तालाप 300-500 मिलीसेकंड रिस्पॉन्स विंडो के भीतर संचालित होता है।² 500 मिलीसेकंड से अधिक की देरी अप्राकृतिक लगती है। 1.2 सेकंड से अधिक होने पर, उपयोगकर्ता फोन काट देते हैं या बीच में बोलने लगते हैं। इन थ्रेशोल्ड को पूरा करने वाले वॉइस एजेंट्स बनाने के लिए स्टैक की प्रत्येक परत को समझना, उपयुक्त कंपोनेंट्स का चयन करना और ऐसे सिस्टम आर्किटेक्ट करना आवश्यक है जहां हर मिलीसेकंड मायने रखती है।

वॉइस AI स्टैक

प्रत्येक वॉइस एजेंट चार कंपोनेंट्स पर निर्भर करता है जो एक साथ काम करते हैं:³

स्पीच-टू-टेक्स्ट (STT/ASR): वे "कान" जो बोले गए ऑडियो को टेक्स्ट में ट्रांसक्राइब करते हैं। स्ट्रीमिंग कॉन्फ़िगरेशन के आधार पर लेटेंसी 100-500 मिलीसेकंड तक होती है।

लार्ज लैंग्वेज मॉडल (LLM): वह "दिमाग" जो ट्रांसक्राइब किए गए टेक्स्ट को प्रोसेस करता है और रिस्पॉन्स जेनरेट करता है। ऑप्टिमाइज्ड मॉडल्स के लिए 350 मिलीसेकंड से लेकर फ्रंटियर मॉडल्स के लिए एक सेकंड से अधिक तक लेटेंसी होती है।

टेक्स्ट-टू-स्पीच (TTS): वह "आवाज़" जो रिस्पॉन्स टेक्स्ट को ऑडियो में सिंथेसाइज़ करती है। आधुनिक स्ट्रीमिंग TTS 75-200 मिलीसेकंड टाइम-टू-फर्स्ट-ऑडियो प्राप्त करता है।

ऑर्केस्ट्रेशन: वह "कंडक्टर" जो कंपोनेंट्स के बीच रियल-टाइम फ्लो को मैनेज करता है, टर्न-टेकिंग, इंटरप्शन और सेशन स्टेट को हैंडल करता है।

लेटेंसी इक्वेशन

वॉइस AI लेटेंसी पाइपलाइन में जमा होती है:⁴

कुल लेटेंसी = STT + LLM + TTS + नेटवर्क + प्रोसेसिंग
            = 200ms + 500ms + 150ms + 50ms + 100ms
            = 1000ms (सामान्य)

500 मिलीसेकंड से कम रिस्पॉन्स प्राप्त करने के लिए या तो प्रत्येक कंपोनेंट को कंप्रेस करना होगा या स्ट्रीमिंग के माध्यम से पाइपलाइन को पैरेललाइज़ करना होगा—LLM के जेनरेट करने से पहले स्पीच सिंथेसिस शुरू करना, उपयोगकर्ताओं के बोलने से पहले पार्शियल ट्रांसक्रिप्शन प्रोसेस करना।

स्पीच-टू-टेक्स्ट इन्फ्रास्ट्रक्चर

ASR लेयर ऑडियो स्ट्रीम्स को टेक्स्ट में कन्वर्ट करती है जिसे लैंग्वेज मॉडल्स प्रोसेस कर सकें। प्रोवाइडर सिलेक्शन में लेटेंसी, एक्यूरेसी और कॉस्ट को बैलेंस करना शामिल है।

प्रोवाइडर तुलना

Deepgram Nova-3:⁵ - टाइम-टू-फर्स्ट-टोकन: ~150ms (US), 250-350ms (ग्लोबल) - वर्ड एरर रेट: 18.3% - रियल-टाइम फैक्टर 0.2-0.3x के साथ स्ट्रीमिंग ऑप्टिमाइज्ड - प्राइसिंग: $0.0043/मिनट (पे-एज़-यू-गो) - इसके लिए सर्वश्रेष्ठ: स्पीड को प्राथमिकता देने वाले लो-लेटेंसी वॉइस एजेंट्स

AssemblyAI Universal-2:⁶ - लेटेंसी: 300-600ms - वर्ड एरर रेट: 14.5% (स्ट्रीमिंग मॉडल्स में सर्वश्रेष्ठ एक्यूरेसी) - मेडिकल और सेल्स संदर्भों में मजबूत डोमेन-स्पेसिफिक परफॉर्मेंस - प्राइसिंग: $0.00025/सेकंड - इसके लिए सर्वश्रेष्ठ: रॉ स्पीड पर एक्यूरेसी की आवश्यकता वाले एप्लिकेशन

Whisper (सेल्फ-होस्टेड):⁷ - लेटेंसी: 1-5 सेकंड (बैच), 380-520ms (WhisperX ऑप्टिमाइज्ड) - ऑफलाइन ट्रांसक्रिप्शन के लिए उच्चतम एक्यूरेसी - प्रोडक्शन स्ट्रीमिंग के लिए महत्वपूर्ण इंजीनियरिंग आवश्यक - इसके लिए सर्वश्रेष्ठ: बैच प्रोसेसिंग, हाइब्रिड आर्किटेक्चर

Groq-accelerated Whisper: - लेटेंसी: LPU हार्डवेयर पर 300ms से कम - Whisper एक्यूरेसी को स्ट्रीमिंग लेटेंसी के साथ जोड़ता है - GroqCloud के माध्यम से सीमित उपलब्धता - इसके लिए सर्वश्रेष्ठ: क्वालिटी-फोकस्ड रियल-टाइम एप्लिकेशन

ASR इन्फ्रास्ट्रक्चर पैटर्न

स्ट्रीमिंग आर्किटेक्चर: पूर्ण उच्चारण के लिए प्रतीक्षा करने के बजाय ऑडियो आते ही तुरंत ट्रांसक्रिप्शन शुरू करें। उपयोगकर्ताओं के बोलने से पहले पार्शियल रिजल्ट्स डाउनस्ट्रीम कंपोनेंट्स को फीड करें।

# स्ट्रीमिंग ASR पैटर्न
async def transcribe_stream(audio_stream):
    async for chunk in audio_stream:
        partial = await asr_client.transcribe_chunk(chunk)
        if partial.is_final:
            yield partial.text
        else:
            # प्रेडिक्शन के लिए इंटरिम रिजल्ट्स भेजें
            yield partial.interim_text

वॉइस एक्टिविटी डिटेक्शन (VAD): पता लगाएं कि उपयोगकर्ता कब बोलना शुरू और बंद करते हैं। खराब VAD या तो प्रीमैच्योर कटऑफ (उपयोगकर्ताओं को बीच में काटना) या अत्यधिक देरी (उस साइलेंस के लिए प्रतीक्षा करना जो पहले ही हो चुकी है) पैदा करता है।

एंडपॉइंटिंग: निर्धारित करें कि उपयोगकर्ता ने अपनी बारी कब समाप्त की है। एग्रेसिव एंडपॉइंटिंग लेटेंसी कम करती है लेकिन स्पीकर्स को बीच में काटने का जोखिम होता है। कंजर्वेटिव एंडपॉइंटिंग पूर्णता सुनिश्चित करती है लेकिन देरी जोड़ती है।

सेल्फ-होस्टेड ASR के लिए GPU आवश्यकताएं

सेल्फ-होस्टेड Whisper डिप्लॉयमेंट्स को GPU एक्सेलरेशन की आवश्यकता होती है:⁸

वर्कलोड लेवल GPU कंकरेंट स्ट्रीम्स
डेवलपमेंट RTX 3060/4060 5-10
प्रोडक्शन A100 40GB 50-100
एंटरप्राइज़ H100 200+

प्रोडक्शन स्पीच-टू-टेक्स्ट आमतौर पर H100 के बजाय A100 या RTX 6000 Ada पर चलता है—वर्कलोड को रॉ कंप्यूट से अधिक मेमोरी बैंडविड्थ से लाभ होता है।

लार्ज लैंग्वेज मॉडल लेयर

LLM ट्रांसक्राइब्ड स्पीच को प्रोसेस करता है और रिस्पॉन्स टेक्स्ट जेनरेट करता है। मॉडल सिलेक्शन लेटेंसी और कन्वर्सेशन क्वालिटी दोनों को नाटकीय रूप से प्रभावित करता है।

मॉडल लेटेंसी प्रोफाइल

अल्ट्रा-फास्ट (350ms से कम):⁹ - Gemini Flash 1.5: ~300ms टाइम-टू-फर्स्ट-टोकन - Groq-served Llama: LPU पर ~200ms - इसके लिए सर्वश्रेष्ठ: अधिकतम रिस्पॉन्सिवनेस, सरल क्वेरीज़

फास्ट (350-700ms): - GPT-4o-mini: ~400ms - Claude 3.5 Haiku: ~350ms - इसके लिए सर्वश्रेष्ठ: संतुलित स्पीड और क्षमता

स्टैंडर्ड (700ms-1s+): - GPT-4o: ~700ms - Claude 3.5 Sonnet: ~800ms - इसके लिए सर्वश्रेष्ठ: जटिल रीज़निंग, क्वालिटी-क्रिटिकल एप्लिकेशन

ऑप्टिमाइज़ेशन स्ट्रैटेजीज़

स्ट्रीमिंग जेनरेशन: पूर्ण रिस्पॉन्स के लिए प्रतीक्षा करने के बजाय LLM टोकन आते ही TTS सिंथेसिस शुरू करें। आधुनिक ऑर्केस्ट्रेशन पाइपलाइनें टोकन सीधे स्पीच सिंथेसिस को स्ट्रीम करती हैं।

स्पेक्युलेटिव एक्ज़ीक्यूशन: पार्शियल ट्रांसक्रिप्शन के आधार पर संभावित रिस्पॉन्स की भविष्यवाणी करें। उपयोगकर्ताओं के बोलने से पहले रिस्पॉन्स जेनरेट करना शुरू करें, जो प्रेडिक्शन फाइनल इंटेंट से मेल नहीं खाती उन्हें डिस्कार्ड करें।

मॉडल राउटिंग: सरल क्वेरीज़ को फास्ट मॉडल्स पर, जटिल क्वेरीज़ को सक्षम मॉडल्स पर राउट करें। एक क्लासिफायर सिंगल-डिजिट मिलीसेकंड में क्वेरी कॉम्प्लेक्सिटी निर्धारित करता है।

# मॉडल राउटिंग पैटर्न
def route_query(transcript, context):
    complexity = classify_complexity(transcript)
    if complexity == "simple":
        return "gemini-flash"
    elif complexity == "moderate":
        return "gpt-4o-mini"
    else:
        return "gpt-4o"

प्रॉम्प्ट ऑप्टिमाइज़ेशन: छोटे प्रॉम्प्ट प्रोसेसिंग टाइम कम करते हैं। जहां प्रोवाइडर प्रॉम्प्ट कैशिंग सपोर्ट करते हैं वहां सिस्टम प्रॉम्प्ट कैश करें (Anthropic कैश्ड प्रीफिक्सेस पर 90% कॉस्ट रिडक्शन प्राप्त करता है)।

टेक्स्ट-टू-स्पीच इन्फ्रास्ट्रक्चर

TTS LLM-जेनरेटेड टेक्स्ट को नेचुरल-साउंडिंग स्पीच में कन्वर्ट करता है। यह लेयर बॉटलनेक (ऐतिहासिक रूप से 2-3 सेकंड) से स्ट्रेंथ (आधुनिक प्रोवाइडर्स के साथ 75-150ms) में बदल गई है।

प्रोवाइडर तुलना

ElevenLabs Flash v2.5:¹⁰ - टाइम-टू-फर्स्ट-ऑडियो: 75ms - वॉइस क्वालिटी: इंडस्ट्री-लीडिंग नेचुरलनेस - इमोशनल रेंज: उत्कृष्ट एक्सप्रेसिवनेस - प्राइसिंग: $0.050/1,000 कैरेक्टर्स - इसके लिए सर्वश्रेष्ठ: क्वालिटी-क्रिटिकल एप्लिकेशन

Cartesia Sonic:¹¹ - टाइम-टू-फर्स्ट-ऑडियो: 40-95ms - रियल-टाइम कन्वर्सेशन के लिए पर्पस-बिल्ट - लोड के तहत कंसिस्टेंट लो लेटेंसी - प्राइसिंग: $0.038/1,000 कैरेक्टर्स - इसके लिए सर्वश्रेष्ठ: लेटेंसी-क्रिटिकल एप्लिकेशन

Deepgram Aura-2:¹² - टाइम-टू-फर्स्ट-ऑडियो: 150ms से कम - एंटरप्राइज़-ग्रेड रिलायबिलिटी - स्केल पर कॉस्ट-इफेक्टिव - प्राइसिंग: $0.030/1,000 कैरेक्टर्स - इसके लिए सर्वश्रेष्ठ: हाई-वॉल्यूम एंटरप्राइज़ डिप्लॉयमेंट्स

PlayHT: - लेटेंसी: ~300ms - एक्सटेंसिव वॉइस लाइब्रेरी - वॉइस क्लोनिंग क्षमताएं - लोअर प्राइस पॉइंट - इसके लिए सर्वश्रेष्ठ: बजट-कॉन्शियस एप्लिकेशन

TTS इन्फ्रास्ट्रक्चर पैटर्न

स्ट्रीमिंग सिंथेसिस: LLM से टेक्स्ट आते ही प्रोग्रेसिवली ऑडियो जेनरेट करें। पूर्ण वाक्य सिंथेसाइज़ होने से पहले यूज़र्स को ऑडियो चंक्स भेजें।

ऑडियो बफरिंग: वेरिएबल सिंथेसिस टाइमिंग के बावजूद प्लेबैक को स्मूथ करने के लिए छोटे बफर मेंटेन करें। बहुत ज्यादा बफर करने से लेटेंसी प्रभावित होती है। बहुत कम बफर करने से ऑडियो स्टटर करता है।

वॉइस कैशिंग: फ्रीक्वेंटली यूज़्ड फ्रेज़ेस (ग्रीटिंग्स, कॉमन रिस्पॉन्सेस) को प्री-सिंथेसाइज़्ड ऑडियो के रूप में कैश करें। कैश्ड कंटेंट के लिए TTS लेटेंसी पूरी तरह से एलिमिनेट हो जाती है।

ऑर्केस्ट्रेशन प्लेटफॉर्म

ऑर्केस्ट्रेशन लेयर्स ASR, LLM और TTS कंपोनेंट्स को कनेक्ट करती हैं जबकि टेलीफोनी, टर्न-टेकिंग और सेशन मैनेजमेंट को हैंडल करती हैं। प्लेटफॉर्म सिलेक्शन डेवलपमेंट वेलोसिटी और प्रोडक्शन रिलायबिलिटी निर्धारित करता है।

प्लेटफॉर्म तुलना

Vapi:¹³ - फोकस: टर्नकी वॉइस एजेंट प्लेटफॉर्म - टेलीफोनी: नेटिव SIP/PSTN इंटीग्रेशन - कस्टमाइज़ेशन: मॉड्यूलर कंपोनेंट सिलेक्शन - प्राइसिंग: $0.05/मिनट + कंपोनेंट कॉस्ट - इसके लिए सर्वश्रेष्ठ: रैपिड डिप्लॉयमेंट, टेलीफोन-फोकस्ड एप्लिकेशन

LiveKit:¹⁴ - फोकस: ओपन-सोर्स रियल-टाइम इन्फ्रास्ट्रक्चर - आर्किटेक्चर: एजेंट फ्रेमवर्क के साथ WebRTC-नेटिव - कस्टमाइज़ेशन: फुल कंट्रोल, सेल्फ-होस्टेबल - प्राइसिंग: फ्री टियर (100 कंकरेंट, 5,000 मिनट/माह), पेड $50/माह से - इसके लिए सर्वश्रेष्ठ: कस्टम एप्लिकेशन, फुल कंट्रोल चाहने वाली टीमें

Retell AI:¹⁵ - फोकस: नेचुरल कन्वर्सेशन फ्लो - डिफरेंशिएटर: ऑप्टिमाइज़्ड टर्न-टेकिंग और इंटरप्शन हैंडलिंग - कंप्लायंस: HIPAA और SOC 2 Type II - प्राइसिंग: $0.07+/मिनट - इसके लिए सर्वश्रेष्ठ: कन्वर्सेशन क्वालिटी प्रायोरिटी, एंटरप्राइज़ कंप्लायंस

Pipecat: - फोकस: ओपन-सोर्स एजेंट फ्रेमवर्क - इंटीग्रेशन: मेजर क्लाउड प्रोवाइडर्स के साथ काम करता है - कस्टमाइज़ेशन: हाईली फ्लेक्सिबल पाइपलाइन कंस्ट्रक्शन - इसके लिए सर्वश्रेष्ठ: प्लेटफॉर्म लॉक-इन के बिना फ्रेमवर्क चाहने वाले डेवलपर्स

सिलेक्शन क्राइटेरिया

फैक्टर Vapi LiveKit Retell
टेलीफोनी इंटीग्रेशन उत्कृष्ट अच्छा (SIP के माध्यम से) उत्कृष्ट
कस्टमाइज़ेशन हाई हाईएस्ट मॉडरेट
सेटअप कॉम्प्लेक्सिटी लो मॉडरेट लो
सेल्फ-होस्टिंग नहीं हां नहीं
एंटरप्राइज़ फीचर्स अच्छा बढ़ रहा है उत्कृष्ट

आर्किटेक्चर पैटर्न

कैस्केडिंग पाइपलाइन (ASR → LLM → TTS)

पारंपरिक आर्किटेक्चर ऑडियो को डिस्क्रीट स्टेज के माध्यम से प्रोसेस करता है:¹⁶

ऑडियो → ASR → टेक्स्ट → LLM → रिस्पॉन्स टेक्स्ट → TTS → ऑडियो

फायदे: - कंपोनेंट मॉड्यूलैरिटी (प्रोवाइडर्स आसानी से स्वैप करें) - मैच्योर टूलिंग और डिबगिंग - प्रेडिक्टेबल कॉस्ट स्ट्रक्चर (~$0.15/मिनट कन्वर्सेशन लेंथ की परवाह किए बिना) - ट्रांसपेरेंट इंटरमीडिएट रिप्रेजेंटेशन (टेक्स्ट इंस्पेक्टेबल है)

चुनौतियां: - स्टेजों में लेटेंसी एक्युमुलेशन - टेक्स्ट रिप्रेजेंटेशन में इनफॉर्मेशन लॉस (प्रोसोडी, इमोशन) - जटिल स्ट्रीमिंग कोऑर्डिनेशन

स्पीच-टू-स्पीच (S2S)

एंड-टू-एंड मॉडल ऑडियो को सीधे ऑडियो में प्रोसेस करते हैं:¹⁷

ऑडियो → मल्टीमोडल मॉडल → ऑडियो

उदाहरण: - GPT-4o वॉइस मोड - Moshi (Kyutai Labs) - Ultravox

फायदे: - प्रोसोडिक इनफॉर्मेशन प्रिज़र्व करता है - संभावित रूप से कम लेटेंसी (सिंगल मॉडल) - ओवरलैपिंग स्पीच को नेचुरली हैंडल करता है

चुनौतियां: - हायर कॉस्ट (~$0.30-1.50/मिनट लंबी कन्वर्सेशन के लिए) - लिमिटेड कस्टमाइज़ेशन (कंपोनेंट स्वैप नहीं कर सकते) - डिबगिंग ओपेसिटी (कोई इंटरमीडिएट टेक्स्ट नहीं)

हाइब्रिड अप्रोचेज़

प्रोडक्शन सिस्टम तेजी से आर्किटेक्चर कंबाइन कर रहे हैं:

S2S फॉलबैक के साथ कैस्केडिंग: स्टैंडर्ड इंटरैक्शन के लिए कैस्केडिंग यूज़ करें, जटिल ओवरलैपिंग डायलॉग के लिए S2S पर स्विच करें।

पैरेलल प्रोसेसिंग: ASR और इंटेंट प्रेडिक्शन एक साथ रन करें। ASR पूरा होने के दौरान प्रेडिक्टेड इंटेंट के आधार पर रिस्पॉन्स जेनरेशन शुरू करें।

स्पेक्युलेटिव TTS: संभावित रिस्पॉन्स ऑडियो प्री-जेनरेट करें। अगर प्रेडिक्शन मैच करे तो कैश्ड ऑडियो तुरंत प्ले करें; अन्यथा सिंथेसिस पर फॉल बैक करें।

वॉइस AI इन्फ्रास्ट्रक्चर स्केलिंग

कंकरेंट कैपेसिटी प्लानिंग

वॉइस AI टेक्स्ट-बेस्ड AI से अलग तरीके से स्केल होता है। प्रत्येक कंकरेंट कॉल को पाइपलाइन में डेडिकेटेड प्रोसेसिंग रिसोर्सेज़ की आवश्यकता होती है।¹⁸

पर-GPU कैपेसिटी (सेल्फ-होस्टेड):

GPU ASR स्ट्रीम्स LLM कंकरेंट TTS स्ट्रीम्स
L4 50 20-30 100
L40S 100 50-75 200
A100 100 75-100 250
H100 200+ 150-200 400+

मैनेज्ड सर्विस कैपेसिटी: क्लाउड प्रोवाइडर्स स्केलिंग ऑटोमेटिकली हैंडल करते हैं

[अनुवाद के लिए कंटेंट ट्रंकेटेड]

कोटेशन का अनुरोध करें_

अपने प्रोजेक्ट के बारे में बताएं और हम 72 घंटों के भीतर जवाب देंगे।

> TRANSMISSION_COMPLETE

अनुरोध प्राप्त हुआ_

आपकी पूछताछ के लिए धन्यवाद। हमारी टीम आपके अनुरोध की समीक्षा करेगी और 72 घंटों के भीतर उत्तर देगी।

QUEUED FOR PROCESSING