语音AI基础设施：构建实时语音代理

Deepgram语音转文字延迟150毫秒，ElevenLabs文字转语音延迟75毫秒——但由于技术栈延迟叠加，大多数代理响应时间仍需800毫秒至2秒。人类对话需要300-500毫秒的响应窗口。管道延迟：语音转文字（100-500毫秒）+ 大语言模型（350毫秒-1秒以上）+ 文字转语音（75-200毫秒）。对于生产级语音代理而言，每一毫秒都至关重要。

Blake Crosley

Jan 28, 2026 2 min read Disclaimer

语音AI基础设施：构建实时语音代理

更新于2025年12月11日

2025年12月更新： Deepgram语音转文字延迟150毫秒，ElevenLabs文字转语音延迟75毫秒——但由于技术栈延迟叠加，大多数代理响应时间仍需800毫秒至2秒。人类对话需要300-500毫秒的响应窗口。管道延迟：语音转文字（100-500毫秒）+ 大语言模型（350毫秒-1秒以上）+ 文字转语音（75-200毫秒）。对于生产级语音代理而言，每一毫秒都至关重要。

Deepgram在150毫秒内完成语音转文字，ElevenLabs在75毫秒内合成语音。然而，大多数语音AI代理的响应时间仍需800毫秒到2秒——因为延迟在整个技术栈中不断累积。¹ 组件能力与端到端性能之间的差距揭示了语音AI的核心基础设施挑战：如何将语音识别、语言模型和语音合成编排成符合人类对话节奏的管道。

人类对话在300-500毫秒的响应窗口内进行。² 超过500毫秒的延迟会让人感觉不自然。超过1.2秒，用户就会挂断或打断。构建能达到这些阈值的语音代理，需要理解技术栈的每一层、选择合适的组件，并构建每毫秒都至关重要的系统架构。

语音AI技术栈

每个语音代理都依赖四个协同工作的组件：³

语音转文字（STT/ASR）： 将口语音频转录为文本的"耳朵"。根据流式配置不同，延迟范围从100-500毫秒不等。

大语言模型（LLM）： 处理转录文本并生成响应的"大脑"。优化后的模型延迟从350毫秒起，前沿模型则超过1秒。

文字转语音（TTS）： 将响应文本合成为音频的"声音"。现代流式TTS可实现75-200毫秒的首音频时间。

编排层： 管理组件间实时数据流的"指挥"，处理轮流对话、打断和会话状态。

延迟方程

语音AI延迟在整个管道中累积：⁴

总延迟 = STT + LLM + TTS + 网络 + 处理
      = 200ms + 500ms + 150ms + 50ms + 100ms
      = 1000ms（典型值）

要实现500毫秒以下的响应，要么压缩每个组件的延迟，要么通过流式处理实现管道并行化——在LLM生成完成之前开始语音合成，在用户说完之前处理部分转录内容。

语音转文字基础设施

ASR层将音频流转换为语言模型可处理的文本。服务商选择需要在延迟、准确性和成本之间取得平衡。

服务商对比

Deepgram Nova-3：⁵ - 首Token时间：约150毫秒（美国），250-350毫秒（全球） - 词错误率：18.3% - 流式优化，实时因子0.2-0.3倍 - 定价：$0.0043/分钟（按量付费） - 最适合：优先考虑速度的低延迟语音代理

AssemblyAI Universal-2：⁶ - 延迟：300-600毫秒 - 词错误率：14.5%（流式模型中准确率最高） - 在医疗和销售领域表现出色 - 定价：$0.00025/秒 - 最适合：准确性优先于原始速度的应用

Whisper（自托管）：⁷ - 延迟：1-5秒（批处理），380-520毫秒（WhisperX优化版） - 离线转录准确率最高 - 生产级流式处理需要大量工程投入 - 最适合：批处理、混合架构

Groq加速的Whisper： - 延迟：LPU硬件上低于300毫秒 - 结合Whisper的准确性和流式延迟 - 仅通过GroqCloud提供有限访问 - 最适合：注重质量的实时应用

ASR基础设施模式

流式架构： 音频到达后立即开始转录，而非等待完整的语句。在用户说完之前，部分结果就已经传递给下游组件。

# 流式ASR模式
async def transcribe_stream(audio_stream):
    async for chunk in audio_stream:
        partial = await asr_client.transcribe_chunk(chunk)
        if partial.is_final:
            yield partial.text
        else:
            # 发送中间结果用于预测
            yield partial.interim_text

语音活动检测（VAD）： 检测用户何时开始和停止说话。糟糕的VAD会导致过早截断（打断用户）或过度延迟（等待已经发生的静音）。

端点检测： 确定用户何时完成其轮次。激进的端点检测可减少延迟，但有打断说话者的风险。保守的端点检测确保完整性，但会增加延迟。

自托管ASR的GPU需求

自托管Whisper部署需要GPU加速：⁸

工作负载级别	GPU	并发流数量
开发环境	RTX 3060/4060	5-10
生产环境	A100 40GB	50-100
企业级	H100	200+

生产级语音转文字通常运行在A100或RTX 6000 Ada上，而非H100——这类工作负载更受益于内存带宽而非原始计算能力。

大语言模型层

LLM处理转录的语音并生成响应文本。模型选择对延迟和对话质量都有显著影响。

模型延迟概况

超快速（低于350毫秒）：⁹ - Gemini Flash 1.5：约300毫秒首Token时间 - Groq托管的Llama：LPU上约200毫秒 - 最适合：最大响应速度、简单查询

快速（350-700毫秒）： - GPT-4o-mini：约400毫秒 - Claude 3.5 Haiku：约350毫秒 - 最适合：速度与能力的平衡

标准（700毫秒-1秒以上）： - GPT-4o：约700毫秒 - Claude 3.5 Sonnet：约800毫秒 - 最适合：复杂推理、质量优先的应用

优化策略

流式生成： 在LLM Token到达时立即开始TTS合成，而非等待完整响应。现代编排管道将Token直接流式传输到语音合成。

推测执行： 基于部分转录预测可能的响应。在用户说完之前开始生成响应，如果预测与最终意图不匹配则丢弃。

模型路由： 将简单查询路由到快速模型，复杂查询路由到能力更强的模型。分类器在个位数毫秒内确定查询复杂度。

# 模型路由模式
def route_query(transcript, context):
    complexity = classify_complexity(transcript)
    if complexity == "simple":
        return "gemini-flash"
    elif complexity == "moderate":
        return "gpt-4o-mini"
    else:
        return "gpt-4o"

提示词优化： 更短的提示词减少处理时间。在支持提示词缓存的服务商处缓存系统提示词（Anthropic在缓存前缀上可实现90%的成本降低）。

文字转语音基础设施

TTS将LLM生成的文本转换为自然流畅的语音。这一层已从瓶颈（历史上需要2-3秒）转变为优势（现代服务商可达75-150毫秒）。

服务商对比

ElevenLabs Flash v2.5：¹⁰ - 首音频时间：75毫秒 - 语音质量：业界领先的自然度 - 情感范围：出色的表现力 - 定价：$0.050/1,000字符 - 最适合：质量优先的应用

Cartesia Sonic：¹¹ - 首音频时间：40-95毫秒 - 专为实时对话构建 - 高负载下延迟稳定 - 定价：$0.038/1,000字符 - 最适合：延迟优先的应用

Deepgram Aura-2：¹² - 首音频时间：低于150毫秒 - 企业级可靠性 - 大规模部署成本效益高 - 定价：$0.030/1,000字符 - 最适合：高流量企业部署

PlayHT： - 延迟：约300毫秒 - 丰富的语音库 - 语音克隆功能 - 价格较低 - 最适合：预算敏感的应用

TTS基础设施模式

流式合成： 在LLM文本到达时逐步生成音频。在完整句子合成完成之前就向用户发送音频块。

音频缓冲： 维护小型缓冲区以平滑播放，尽管合成时间不稳定。缓冲太多会影响延迟，缓冲太少会导致音频卡顿。

语音缓存： 将常用短语（问候语、常见回复）缓存为预合成音频。对缓存内容完全消除TTS延迟。

编排平台

编排层连接ASR、LLM和TTS组件，同时处理电话通信、轮流对话和会话管理。平台选择决定了开发速度和生产可靠性。

平台对比

Vapi：¹³ - 定位：一站式语音代理平台 - 电话通信：原生SIP/PSTN集成 - 定制化：模块化组件选择 - 定价：$0.05/分钟 + 组件费用 - 最适合：快速部署、电话应用场景

LiveKit：¹⁴ - 定位：开源实时基础设施 - 架构：原生WebRTC，带代理框架 - 定制化：完全控制，可自托管 - 定价：免费层（100并发，5,000分钟/月），付费从$50/月起 - 最适合：定制应用、需要完全控制的团队

Retell AI：¹⁵ - 定位：自然对话流程 - 差异化：优化的轮流对话和打断处理 - 合规性：HIPAA和SOC 2 Type II - 定价：$0.07+/分钟 - 最适合：对话质量优先、企业合规需求

Pipecat： - 定位：开源代理框架 - 集成：支持主流云服务商 - 定制化：高度灵活的管道构建 - 最适合：想要框架但不想被平台锁定的开发者

选择标准

因素	Vapi	LiveKit	Retell
电话通信集成	优秀	良好（通过SIP）	优秀
定制化程度	高	最高	中等
配置复杂度	低	中等	低
自托管	否	是	否
企业功能	良好	发展中	优秀

架构模式

级联管道（ASR → LLM → TTS）

传统架构通过离散阶段处理音频：¹⁶

音频 → ASR → 文本 → LLM → 响应文本 → TTS → 音频

优势： - 组件模块化（易于更换服务商） - 成熟的工具和调试手段 - 可预测的成本结构（约$0.15/分钟，与对话长度无关） - 透明的中间表示（文本可检查）

挑战： - 延迟在各阶段累积 - 文本表示中的信息丢失（语调、情感） - 流式协调复杂

语音到语音（S2S）

端到端模型直接从音频处理到音频：¹⁷

音频 → 多模态模型 → 音频

示例： - GPT-4o语音模式 - Moshi（Kyutai Labs） - Ultravox

优势： - 保留语调信息 - 潜在更低延迟（单一模型） - 自然处理重叠语音

挑战： - 更高成本（较长对话约$0.30-1.50/分钟） - 定制化受限（无法更换组件） - 调试不透明（无中间文本）

混合方法

生产系统越来越多地结合多种架构：

级联 + S2S回退： 标准交互使用级联，复杂的重叠对话切换到S2S。

并行处理： 同时运行ASR和意图预测。在ASR完成的同时基于预测意图开始生成响应。

推测性TTS： 预先生成可能的响应音频。如果预测匹配立即播放缓存音频；否则回退到合成。

语音AI基础设施扩展

并发容量规划

语音AI的扩展方式与基于文本的AI不同。每个并发通话都需要整个管道的专用处理资源。¹⁸

每GPU容量（自托管）：

GPU	ASR流数量	LLM并发数	TTS流数量
L4	50	20-30	100
L40S	100	50-75	200
A100	100	75-100	250
H100	200+	150-200	400+

托管服务容量： 云服务商自动处理扩展

[内容因翻译需要截断]

语音AI基础设施：构建实时语音代理

语音AI技术栈

延迟方程

语音转文字基础设施

服务商对比

ASR基础设施模式

自托管ASR的GPU需求

大语言模型层

模型延迟概况

优化策略

文字转语音基础设施

服务商对比

TTS基础设施模式

编排平台

平台对比

选择标准

架构模式

级联管道（ASR → LLM → TTS）

语音到语音（S2S）

混合方法

语音AI基础设施扩展

并发容量规划

You Might Also Like

浸没式冷却投资回报计算器：AI工作负载2-4年回本分析

英国AI走廊：伦敦新兴计算中心

水资源使用效率：无危机的AI数据中心冷却方案

申请报价_

请求已收到_