음성 AI 인프라: 실시간 음성 에이전트 구축

Deepgram STT 150ms, ElevenLabs TTS 75ms—그러나 대부분의 에이전트가 스택 레이턴시 누적으로 인해 800ms-2초 소요. 인간 대화는 300-500ms 응답 윈도우 필요. 파이프라인 레이턴시: STT...

음성 AI 인프라: 실시간 음성 에이전트 구축

음성 AI 인프라: 실시간 음성 에이전트 구축

2025년 12월 11일 업데이트

2025년 12월 업데이트: Deepgram STT 150ms, ElevenLabs TTS 75ms—그러나 대부분의 에이전트가 스택 레이턴시 누적으로 인해 800ms에서 2초까지 소요됩니다. 인간 대화는 300-500ms 응답 윈도우가 필요합니다. 파이프라인 레이턴시: STT(100-500ms) + LLM(350ms-1초 이상) + TTS(75-200ms). 프로덕션 음성 에이전트에서는 모든 밀리초가 중요합니다.

Deepgram은 150밀리초 만에 음성을 텍스트로 변환합니다. ElevenLabs는 75밀리초 만에 음성을 합성합니다. 그러나 대부분의 음성 AI 에이전트는 여전히 응답에 800밀리초에서 2초가 걸립니다—레이턴시가 전체 스택에서 누적되기 때문입니다.¹ 개별 컴포넌트 성능과 엔드투엔드 성능 사이의 격차는 음성 AI의 핵심 인프라 과제를 드러냅니다: 음성 인식, 언어 모델, 음성 합성을 인간 대화 타이밍에 맞는 파이프라인으로 조율하는 것입니다.

인간 대화는 300-500밀리초 응답 윈도우 내에서 작동합니다.² 500밀리초를 넘는 지연은 부자연스럽게 느껴집니다. 1.2초를 넘으면 사용자는 전화를 끊거나 말을 끊습니다. 이러한 임계값을 충족하는 음성 에이전트를 구축하려면 스택의 각 레이어를 이해하고, 적절한 컴포넌트를 선택하며, 모든 밀리초가 중요한 시스템을 설계해야 합니다.

음성 AI 스택

모든 음성 에이전트는 네 가지 컴포넌트가 조화롭게 작동합니다:³

음성-텍스트 변환(STT/ASR): 음성 오디오를 텍스트로 전사하는 "귀" 역할. 스트리밍 구성에 따라 레이턴시가 100-500밀리초입니다.

대규모 언어 모델(LLM): 전사된 텍스트를 처리하고 응답을 생성하는 "두뇌" 역할. 최적화된 모델의 경우 350밀리초부터 프론티어 모델의 경우 1초 이상까지 레이턴시가 다양합니다.

텍스트-음성 변환(TTS): 응답 텍스트를 오디오로 합성하는 "목소리" 역할. 최신 스트리밍 TTS는 75-200밀리초의 첫 오디오 출력 시간을 달성합니다.

오케스트레이션: 컴포넌트 간 실시간 흐름을 관리하고, 턴테이킹, 끼어들기, 세션 상태를 처리하는 "지휘자" 역할.

레이턴시 방정식

음성 AI 레이턴시는 파이프라인 전체에서 누적됩니다:⁴

총 레이턴시 = STT + LLM + TTS + 네트워크 + 처리
           = 200ms + 500ms + 150ms + 50ms + 100ms
           = 1000ms (일반적)

500밀리초 미만의 응답을 달성하려면 각 컴포넌트를 압축하거나 스트리밍을 통해 파이프라인을 병렬화해야 합니다—LLM이 생성을 완료하기 전에 음성 합성을 시작하고, 사용자가 말을 끝내기 전에 부분 전사를 처리하는 것입니다.

음성-텍스트 변환 인프라

ASR 레이어는 오디오 스트림을 언어 모델이 처리할 수 있는 텍스트로 변환합니다. 제공업체 선택은 레이턴시, 정확도, 비용 간의 균형을 맞추는 것입니다.

제공업체 비교

Deepgram Nova-3:⁵ - 첫 토큰 출력 시간: ~150ms(미국), 250-350ms(글로벌) - 단어 오류율: 18.3% - 실시간 계수 0.2-0.3x로 스트리밍 최적화 - 가격: $0.0043/분(종량제) - 적합 용도: 속도를 우선시하는 저지연 음성 에이전트

AssemblyAI Universal-2:⁶ - 레이턴시: 300-600ms - 단어 오류율: 14.5%(스트리밍 모델 중 최고 정확도) - 의료 및 영업 맥락에서 강력한 도메인별 성능 - 가격: $0.00025/초 - 적합 용도: 순수 속도보다 정확도가 필요한 애플리케이션

Whisper(자체 호스팅):⁷ - 레이턴시: 1-5초(배치), 380-520ms(WhisperX 최적화) - 오프라인 전사에서 최고 정확도 - 프로덕션 스트리밍에 상당한 엔지니어링 필요 - 적합 용도: 배치 처리, 하이브리드 아키텍처

Groq 가속 Whisper: - 레이턴시: LPU 하드웨어에서 300ms 미만 - Whisper 정확도와 스트리밍 레이턴시 결합 - GroqCloud를 통한 제한된 가용성 - 적합 용도: 품질 중심 실시간 애플리케이션

ASR 인프라 패턴

스트리밍 아키텍처: 전체 발화가 완료될 때까지 기다리지 않고 오디오가 도착하는 즉시 전사를 시작합니다. 부분 결과가 사용자가 말을 끝내기 전에 다운스트림 컴포넌트에 전달됩니다.

# 스트리밍 ASR 패턴
async def transcribe_stream(audio_stream):
    async for chunk in audio_stream:
        partial = await asr_client.transcribe_chunk(chunk)
        if partial.is_final:
            yield partial.text
        else:
            # 예측을 위해 중간 결과 전송
            yield partial.interim_text

음성 활동 감지(VAD): 사용자가 말하기 시작하고 멈추는 시점을 감지합니다. VAD가 불량하면 조기 차단(사용자 말 끊기) 또는 과도한 지연(이미 발생한 침묵 대기)이 발생합니다.

엔드포인팅: 사용자가 자신의 턴을 마쳤는지 판단합니다. 공격적인 엔드포인팅은 레이턴시를 줄이지만 화자를 끊을 위험이 있습니다. 보수적인 엔드포인팅은 완전성을 보장하지만 지연을 추가합니다.

자체 호스팅 ASR을 위한 GPU 요구사항

자체 호스팅 Whisper 배포에는 GPU 가속이 필요합니다:⁸

워크로드 수준 GPU 동시 스트림
개발 RTX 3060/4060 5-10
프로덕션 A100 40GB 50-100
엔터프라이즈 H100 200+

프로덕션 음성-텍스트 변환은 일반적으로 H100보다 A100 또는 RTX 6000 Ada에서 실행됩니다—워크로드가 순수 컴퓨팅보다 메모리 대역폭에서 더 많은 이점을 얻기 때문입니다.

대규모 언어 모델 레이어

LLM은 전사된 음성을 처리하고 응답 텍스트를 생성합니다. 모델 선택은 레이턴시와 대화 품질 모두에 큰 영향을 미칩니다.

모델 레이턴시 프로필

초고속(350ms 미만):⁹ - Gemini Flash 1.5: ~300ms 첫 토큰 출력 시간 - Groq 서빙 Llama: LPU에서 ~200ms - 적합 용도: 최대 응답성, 단순 쿼리

고속(350-700ms): - GPT-4o-mini: ~400ms - Claude 3.5 Haiku: ~350ms - 적합 용도: 속도와 성능의 균형

표준(700ms-1초 이상): - GPT-4o: ~700ms - Claude 3.5 Sonnet: ~800ms - 적합 용도: 복잡한 추론, 품질이 중요한 애플리케이션

최적화 전략

스트리밍 생성: 전체 응답이 완료될 때까지 기다리지 않고 LLM 토큰이 도착하는 대로 TTS 합성을 시작합니다. 최신 오케스트레이션 파이프라인은 토큰을 음성 합성으로 직접 스트리밍합니다.

추측적 실행: 부분 전사를 기반으로 가능한 응답을 예측합니다. 사용자가 말을 끝내기 전에 응답 생성을 시작하고, 최종 의도와 일치하지 않는 예측은 폐기합니다.

모델 라우팅: 단순 쿼리는 빠른 모델로, 복잡한 쿼리는 성능 좋은 모델로 라우팅합니다. 분류기가 한 자릿수 밀리초 내에 쿼리 복잡도를 판단합니다.

# 모델 라우팅 패턴
def route_query(transcript, context):
    complexity = classify_complexity(transcript)
    if complexity == "simple":
        return "gemini-flash"
    elif complexity == "moderate":
        return "gpt-4o-mini"
    else:
        return "gpt-4o"

프롬프트 최적화: 짧은 프롬프트는 처리 시간을 줄입니다. 제공업체가 프롬프트 캐싱을 지원하는 경우 시스템 프롬프트를 캐시합니다(Anthropic은 캐시된 접두사에서 90% 비용 절감 달성).

텍스트-음성 변환 인프라

TTS는 LLM이 생성한 텍스트를 자연스러운 음성으로 변환합니다. 이 레이어는 병목(역사적으로 2-3초)에서 강점(최신 제공업체로 75-150ms)으로 변모했습니다.

제공업체 비교

ElevenLabs Flash v2.5:¹⁰ - 첫 오디오 출력 시간: 75ms - 음성 품질: 업계 최고의 자연스러움 - 감정 범위: 뛰어난 표현력 - 가격: $0.050/1,000자 - 적합 용도: 품질이 중요한 애플리케이션

Cartesia Sonic:¹¹ - 첫 오디오 출력 시간: 40-95ms - 실시간 대화용으로 특별 설계 - 부하 시에도 일관된 저지연 - 가격: $0.038/1,000자 - 적합 용도: 레이턴시가 중요한 애플리케이션

Deepgram Aura-2:¹² - 첫 오디오 출력 시간: 150ms 미만 - 엔터프라이즈급 안정성 - 대규모에서 비용 효율적 - 가격: $0.030/1,000자 - 적합 용도: 대용량 엔터프라이즈 배포

PlayHT: - 레이턴시: ~300ms - 광범위한 음성 라이브러리 - 음성 복제 기능 - 낮은 가격대 - 적합 용도: 예산을 고려하는 애플리케이션

TTS 인프라 패턴

스트리밍 합성: LLM에서 텍스트가 도착하는 대로 점진적으로 오디오를 생성합니다. 전체 문장 합성이 완료되기 전에 오디오 청크를 사용자에게 전송합니다.

오디오 버퍼링: 가변적인 합성 타이밍에도 재생을 부드럽게 하기 위해 작은 버퍼를 유지합니다. 버퍼가 너무 크면 레이턴시가 증가합니다. 버퍼가 너무 작으면 오디오가 끊깁니다.

음성 캐싱: 자주 사용되는 구문(인사말, 일반 응답)을 미리 합성된 오디오로 캐시합니다. 캐시된 콘텐츠에 대해 TTS 레이턴시를 완전히 제거합니다.

오케스트레이션 플랫폼

오케스트레이션 레이어는 ASR, LLM, TTS 컴포넌트를 연결하면서 전화 연결, 턴테이킹, 세션 관리를 처리합니다. 플랫폼 선택은 개발 속도와 프로덕션 안정성을 결정합니다.

플랫폼 비교

Vapi:¹³ - 초점: 턴키 음성 에이전트 플랫폼 - 전화: 네이티브 SIP/PSTN 통합 - 커스터마이징: 모듈식 컴포넌트 선택 - 가격: $0.05/분 + 컴포넌트 비용 - 적합 용도: 빠른 배포, 전화 중심 애플리케이션

LiveKit:¹⁴ - 초점: 오픈소스 실시간 인프라 - 아키텍처: 에이전트 프레임워크가 포함된 WebRTC 네이티브 - 커스터마이징: 완전한 제어, 자체 호스팅 가능 - 가격: 무료 티어(동시 100명, 월 5,000분), 유료 월 $50부터 - 적합 용도: 맞춤 애플리케이션, 완전한 제어가 필요한 팀

Retell AI:¹⁵ - 초점: 자연스러운 대화 흐름 - 차별점: 최적화된 턴테이킹 및 끼어들기 처리 - 컴플라이언스: HIPAA 및 SOC 2 Type II - 가격: $0.07+/분 - 적합 용도: 대화 품질 우선, 엔터프라이즈 컴플라이언스

Pipecat: - 초점: 오픈소스 에이전트 프레임워크 - 통합: 주요 클라우드 제공업체와 호환 - 커스터마이징: 매우 유연한 파이프라인 구성 - 적합 용도: 플랫폼 종속 없이 프레임워크를 원하는 개발자

선택 기준

요소 Vapi LiveKit Retell
전화 통합 우수 양호(SIP 통해) 우수
커스터마이징 높음 최고 보통
설정 복잡도 낮음 보통 낮음
자체 호스팅 불가 가능 불가
엔터프라이즈 기능 양호 성장 중 우수

아키텍처 패턴

캐스케이딩 파이프라인(ASR → LLM → TTS)

전통적인 아키텍처는 오디오를 개별 단계를 통해 처리합니다:¹⁶

오디오 → ASR → 텍스트 → LLM → 응답 텍스트 → TTS → 오디오

장점: - 컴포넌트 모듈성(제공업체 쉽게 교체) - 성숙한 도구 및 디버깅 - 예측 가능한 비용 구조(대화 길이와 관계없이 ~$0.15/분) - 투명한 중간 표현(텍스트 검사 가능)

과제: - 단계 간 레이턴시 누적 - 텍스트 표현에서 정보 손실(운율, 감정) - 복잡한 스트리밍 조율

음성-음성(S2S)

엔드투엔드 모델은 오디오를 직접 오디오로 처리합니다:¹⁷

오디오 → 멀티모달 모델 → 오디오

예시: - GPT-4o 음성 모드 - Moshi(Kyutai Labs) - Ultravox

장점: - 운율 정보 보존 - 잠재적으로 더 낮은 레이턴시(단일 모델) - 겹치는 음성을 자연스럽게 처리

과제: - 더 높은 비용(긴 대화의 경우 ~$0.30-1.50/분) - 제한된 커스터마이징(컴포넌트 교체 불가) - 디버깅 불투명성(중간 텍스트 없음)

하이브리드 접근법

프로덕션 시스템은 점점 더 아키텍처를 결합합니다:

S2S 폴백이 있는 캐스케이딩: 표준 상호작용에는 캐스케이딩을 사용하고, 복잡한 겹치는 대화에는 S2S로 전환합니다.

병렬 처리: ASR과 의도 예측을 동시에 실행합니다. ASR이 완료되는 동안 예측된 의도를 기반으로 응답 생성을 시작합니다.

추측적 TTS: 가능한 응답 오디오를 미리 생성합니다. 예측이 맞으면 캐시된 오디오를 즉시 재생하고, 그렇지 않으면 합성으로 폴백합니다.

음성 AI 인프라 확장

동시 용량 계획

음성 AI는 텍스트 기반 AI와 다르게 확장됩니다. 각 동시 통화는 파이프라인 전체에서 전용 처리 리소스가 필요합니다.¹⁸

GPU당 용량(자체 호스팅):

GPU ASR 스트림 LLM 동시 처리 TTS 스트림
L4 50 20-30 100
L40S 100 50-75 200
A100 100 75-100 250
H100 200+ 150-200 400+

관리형 서비스 용량: 클라우드 제공업체가 자동으로 확장을 처리합니다

[번역을 위해 콘텐츠 잘림]

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중